要約
BiolangFusionを提示します。これは、事前に訓練されたDNA、mRNA、およびタンパク質言語モデルを統合分子表現に統合するための簡単なアプローチです。
分子生物学の中心ドグマ(遺伝子から転写産物、タンパク質への情報の流れ)に動機付けられ、生物学的に意味のあるコドンレベル(1つのアミノ酸をコードする3つのヌクレオチド)でモダリティごとの埋め込みを整列させて、直接的なクロスモーダル対応を確保します。
BiolangFusionは、3つの標準的な融合技術を研究しています。(i)コドンレベルの埋め込み連結、(ii)複数のインスタンス学習に触発されたエントロピーの正規化された注意プーリング、および(iii)クロスモーダルマルチヘッドの注意 – 各技術は、モダリティ固有のシグナルを組み合わせるための異なる誘導バイアスを提供します。
これらの方法では、ベースモデルの追加のトレーニングまたは変更を追加する必要はなく、既存のシーケンスベースの基礎モデルとの簡単な統合を可能にします。
5つの分子特性予測タスクにわたって、BiolangFusionは強力な単峰性のベースラインを上回り、事前に訓練されたモデルの単純な融合でさえ、最小限のオーバーヘッドで補完的なマルチオミック情報をキャプチャできることを示しています。
要約(オリジナル)
We present BioLangFusion, a simple approach for integrating pre-trained DNA, mRNA, and protein language models into unified molecular representations. Motivated by the central dogma of molecular biology (information flow from gene to transcript to protein), we align per-modality embeddings at the biologically meaningful codon level (three nucleotides encoding one amino acid) to ensure direct cross-modal correspondence. BioLangFusion studies three standard fusion techniques: (i) codon-level embedding concatenation, (ii) entropy-regularized attention pooling inspired by multiple-instance learning, and (iii) cross-modal multi-head attention — each technique providing a different inductive bias for combining modality-specific signals. These methods require no additional pre-training or modification of the base models, allowing straightforward integration with existing sequence-based foundation models. Across five molecular property prediction tasks, BioLangFusion outperforms strong unimodal baselines, showing that even simple fusion of pre-trained models can capture complementary multi-omic information with minimal overhead.
arxiv情報
著者 | Amina Mollaysa,Artem Moskale,Pushpak Pati,Tommaso Mansi,Mangal Prakash,Rui Liao |
発行日 | 2025-06-10 16:01:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google