要約
タンパク質モデル(PLM)は、タンパク質配列の複雑なパターンを検出するための強力なツールとして浮上しています。
ただし、タンパク質配列に関する情報を完全にキャプチャするPLMSの機能は、単一のトレーニング前のタスクに焦点を当てることで制限される場合があります。
データのモダリティまたは監視された目標を追加すると、PLMSのパフォーマンスが向上する可能性がありますが、トレーニング前のパフォーマンスはしばしば腐敗したシーケンスの除去に焦点を当てています。
PLMSの境界を押し広げるために、私たちの研究では、マルチタスク前のトレーニング戦略を調査しました。
ANKH3を開発しました。これは、2つの目的で共同で最適化されたモデルを開発しました。複数のマスキング確率を備えたマスク言語モデリングと、タンパク質シーケンスのみに依存するタンパク質シーケンスの完了です。
このマルチタスクの事前トレーニングは、PLMがタンパク質配列のみからより豊かで一般化可能な表現を学習できることを実証しました。
結果は、二次構造予測、蛍光、GB1フィットネス、接触予測など、下流タスクのパフォーマンスの向上を実証しました。
複数のタスクの統合により、モデルはタンパク質特性をより包括的に理解し、より堅牢で正確な予測につながりました。
要約(オリジナル)
Protein language models (PLMs) have emerged as powerful tools to detect complex patterns of protein sequences. However, the capability of PLMs to fully capture information on protein sequences might be limited by focusing on single pre-training tasks. Although adding data modalities or supervised objectives can improve the performance of PLMs, pre-training often remains focused on denoising corrupted sequences. To push the boundaries of PLMs, our research investigated a multi-task pre-training strategy. We developed Ankh3, a model jointly optimized on two objectives: masked language modeling with multiple masking probabilities and protein sequence completion relying only on protein sequences as input. This multi-task pre-training demonstrated that PLMs can learn richer and more generalizable representations solely from protein sequences. The results demonstrated improved performance in downstream tasks, such as secondary structure prediction, fluorescence, GB1 fitness, and contact prediction. The integration of multiple tasks gave the model a more comprehensive understanding of protein properties, leading to more robust and accurate predictions.
arxiv情報
著者 | Hazem Alsamkary,Mohamed Elshaffei,Mohamed Elkerdawy,Ahmed Elnaggar |
発行日 | 2025-05-26 14:41:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google