Linguistically inspired roadmap for building biologically reliable protein language models



– ディープニューラルネットワークを用いた言語モデル(LM)が、タンパク質の機能予測に適用されるようになってきた。
– しかし、タンパク質のLMアプローチはブラックボックスモデルであり、解釈が困難であるため、シーケンスと機能のマッピングを根本的に理解することができず、ルールベースのバイオ医薬品の開発を妨げている。
– 言語学からの指導が、自然言語データから分析的なルール抽出に特化した分野であるため、言語学からの指導によってより解釈可能なタンパク質LMの構築が可能であり、関連するドメイン特有のルールを学習する可能性が高まる。
– タンパク質のシーケンスデータと自然言語のシーケンスデータの違いにより、タンパク質LMには自然言語LMに比べてドメインに特化した知識の統合が必要である。
– 本論文では、トレーニングデータ、トークン化、トークン埋め込み、シーケンス埋め込み、およびモデルの解釈に関するタンパク質LMパイプラインの選択に対する言語学的なロードマップを提供する。
– 言語学の考えをタンパク質LMに組み込むことで、シーケンスと機能の関係に基づく生物学的なメカニズムを明らかにする可能性のある次世代の解釈可能な機械学習モデルの開発を可能にする。


Deep neural-network-based language models (LMs) are increasingly applied to large-scale protein sequence data to predict protein function. However, being largely black-box models and thus challenging to interpret, current protein LM approaches do not contribute to a fundamental understanding of sequence-function mappings, hindering rule-based biotherapeutic drug development. We argue that guidance drawn from linguistics, a field specialized in analytical rule extraction from natural language data, can aid with building more interpretable protein LMs that are more likely to learn relevant domain-specific rules. Differences between protein sequence data and linguistic sequence data require the integration of more domain-specific knowledge in protein LMs compared to natural language LMs. Here, we provide a linguistics-based roadmap for protein LM pipeline choices with regard to training data, tokenization, token embedding, sequence embedding, and model interpretation. Incorporating linguistic ideas into protein LMs enables the development of next-generation interpretable machine-learning models with the potential of uncovering the biological mechanisms underlying sequence-function relationships.


著者 Mai Ha Vu,Rahmad Akbar,Philippe A. Robert,Bartlomiej Swiatczak,Victor Greiff,Geir Kjetil Sandve,Dag Trygve Truslew Haug
発行日 2023-04-28 15:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, q-bio.QM パーマリンク