要約
AI 言語モデル (LM) は、生物学的配列解析に有望です。
私たちは、微生物配列分類用にオープンソース LM (GPT-2、BLOOM、DistilRoBERTa、ELECTRA、Mamba、パラメータ範囲 70M から 12B) を再設計しました。
モデルは最大 95 の F1 スコアを達成し、BLASTP の 16,580 倍の速度と 2.9 倍のリコールで動作しました。
彼らは、藻類のダークプロテオーム(全タンパク質の約65%を構成する未特徴のタンパク質)を効果的に分類し、新しい完全なHi-C/Pacbio Chlamydomonasゲノムを含む新しいデータに基づいて検証しました。
より大きな (>1B) LA4SR モデルは、利用可能なデータの 2% 未満でトレーニングした場合に高精度 (F1 > 86) に達し、強力な汎化能力を急速に達成しました。
トレーニング データに無傷またはスクランブルされた端末情報が含まれている場合に高い精度が達成され、不完全なシーケンスに対する堅牢な一般化が実証されました。
最後に、アミノ酸パターンを AI 生成プロセスに帰属させ、その出力を進化的および生物物理学的文脈で解釈するためのカスタム AI 説明可能ソフトウェア ツールを提供します。
要約(オリジナル)
AI language models (LMs) show promise for biological sequence analysis. We re-engineered open-source LMs (GPT-2, BLOOM, DistilRoBERTa, ELECTRA, and Mamba, ranging from 70M to 12B parameters) for microbial sequence classification. The models achieved F1 scores up to 95 and operated 16,580x faster and at 2.9x the recall of BLASTP. They effectively classified the algal dark proteome – uncharacterized proteins comprising about 65% of total proteins – validated on new data including a new, complete Hi-C/Pacbio Chlamydomonas genome. Larger (>1B) LA4SR models reached high accuracy (F1 > 86) when trained on less than 2% of available data, rapidly achieving strong generalization capacity. High accuracy was achieved when training data had intact or scrambled terminal information, demonstrating robust generalization to incomplete sequences. Finally, we provide custom AI explainability software tools for attributing amino acid patterns to AI generative processes and interpret their outputs in evolutionary and biophysical contexts.
arxiv情報
| 著者 | David R. Nelson,Ashish Kumar Jaiswal,Noha Ismail,Alexandra Mystikou,Kourosh Salehi-Ashtiani |
| 発行日 | 2024-12-11 11:10:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google