Prot2Text: Multimodal Protein’s Function Generation with GNNs and Transformers

要約

大きな生物学的システムの複雑な性質により、一部の科学者はその理解を想像を絶する使命の下に分類するようになりました。
さまざまなレベルの課題がこの課題を複雑にしていますが、その 1 つはタンパク質の機能の予測です。
近年、さまざまな機械学習アプローチの開発を通じて、この分野で大きな進歩が見られました。
しかし、既存の方法のほとんどは、タスクを多分類問題として定式化します。つまり、タンパク質に事前定義されたラベルを割り当てます。
この研究では、従来のバイナリまたはカテゴリー分類を超えて、フリー テキスト スタイルでタンパク質関数を予測する新しいアプローチ \textbf{Prot2Text} を提案します。
グラフ ニューラル ネットワーク (GNN) と大規模言語モデル (LLM) をエンコーダー/デコーダー フレームワークで組み合わせることで、私たちのモデルはタンパク質の配列、構造、テキスト注釈などの多様なデータ タイプを効果的に統合します。
このマルチモーダルなアプローチにより、タンパク質の機能の全体的な表現が可能になり、詳細かつ正確な説明の生成が可能になります。
モデルを評価するために、SwissProt からマルチモーダルなタンパク質データセットを抽出し、Prot2Text の有効性を経験的に実証しました。
これらの結果は、マルチモーダル モデル、特に GNN と LLM の融合の変革的影響を強調しており、タンパク質の機能をより正確に予測するための強力なツールを研究者に提供します。
コード、モデル、デモは公開される予定です。

要約(オリジナル)

The complex nature of big biological systems pushed some scientists to classify its understanding under the inconceivable missions. Different leveled challenges complicated this task, one of is the prediction of a protein’s function. In recent years, significant progress has been made in this field through the development of various machine learning approaches. However, most existing methods formulate the task as a multi-classification problem, i.e assigning predefined labels to proteins. In this work, we propose a novel approach, \textbf{Prot2Text}, which predicts a protein function’s in a free text style, moving beyond the conventional binary or categorical classifications. By combining Graph Neural Networks(GNNs) and Large Language Models(LLMs), in an encoder-decoder framework, our model effectively integrates diverse data types including proteins’ sequences, structures, and textual annotations. This multimodal approach allows for a holistic representation of proteins’ functions, enabling the generation of detailed and accurate descriptions. To evaluate our model, we extracted a multimodal protein dataset from SwissProt, and demonstrate empirically the effectiveness of Prot2Text. These results highlight the transformative impact of multimodal models, specifically the fusion of GNNs and LLMs, empowering researchers with powerful tools for more accurate prediction of proteins’ functions. The code, the models and a demo will be publicly released.

arxiv情報

著者 Hadi Abdine,Michail Chatzianastasis,Costas Bouyioukos,Michalis Vazirgiannis
発行日 2023-12-21 16:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.QM パーマリンク