ProtT3: Protein-to-Text Generation for Text-based Protein Understanding

要約

言語モデル (LM) は、生物医学の質問応答タスクで明らかなように、タンパク質のテキストによる説明の理解に優れています。
ただし、アミノ酸配列などの生のタンパク質データでは、そのようなデータに対する事前トレーニングが不足しているため、その能力は低下します。
逆に、タンパク質言語モデル (PLM) はタンパク質データを理解し、高品質の表現に変換できますが、テキストの処理には苦労します。
それらの制限に対処するために、テキストベースのタンパク質を理解するためのタンパク質からテキストへの生成のフレームワークである ProtT3 を紹介します。
ProtT3 は、タンパク質理解モジュールとして PLM を組み込むことで、LM がアミノ酸のタンパク質配列を理解できるようにし、効率的なタンパク質からテキストへの生成を可能にします。
PLM と LM 間のこの連携は、PLM の表現空間と LM の入力空間の間のモダリティ ギャップを埋めるクロスモーダル プロジェクター (つまり、Q-Former) によって促進されます。
タンパク質の特性予測とタンパク質テキストの検索に焦点を当てたこれまでの研究とは異なり、我々はタンパク質からテキストへの生成というほとんど未踏の分野を掘り下げています。
包括的なベンチマークを促進し、将来の研究を促進するために、タンパク質のキャプション付け、タンパク質の質問応答、タンパク質テキストの検索などのタンパク質テキストのモデリングタスクの定量的評価を確立します。
私たちの実験では、ProtT3 が現在のベースラインを大幅に上回っていることが示されており、アブレーション研究ではそのコアコンポーネントの有効性がさらに強調されています。
私たちのコードは https://github.com/acharkq/ProtT3 で入手できます。

要約(オリジナル)

Language Models (LMs) excel in understanding textual descriptions of proteins, as evident in biomedical question-answering tasks. However, their capability falters with raw protein data, such as amino acid sequences, due to a deficit in pretraining on such data. Conversely, Protein Language Models (PLMs) can understand and convert protein data into high-quality representations, but struggle to process texts. To address their limitations, we introduce ProtT3, a framework for Protein-to-Text Generation for Text-based Protein Understanding. ProtT3 empowers an LM to understand protein sequences of amino acids by incorporating a PLM as its protein understanding module, enabling effective protein-to-text generation. This collaboration between PLM and LM is facilitated by a cross-modal projector (i.e., Q-Former) that bridges the modality gap between the PLM’s representation space and the LM’s input space. Unlike previous studies focusing on protein property prediction and protein-text retrieval, we delve into the largely unexplored field of protein-to-text generation. To facilitate comprehensive benchmarks and promote future research, we establish quantitative evaluations for protein-text modeling tasks, including protein captioning, protein question-answering, and protein-text retrieval. Our experiments show that ProtT3 substantially surpasses current baselines, with ablation studies further highlighting the efficacy of its core components. Our code is available at https://github.com/acharkq/ProtT3.

arxiv情報

著者 Zhiyuan Liu,An Zhang,Hao Fei,Enzhi Zhang,Xiang Wang,Kenji Kawaguchi,Tat-Seng Chua
発行日 2024-05-21 08:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, q-bio.QM パーマリンク