Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation

要約

分子とテキストのクロスモーダル表現学習は、分子表現の品質を高めるための有望な方向として浮上し、それによって創薬や材料科学を含むさまざまな科学分野のパフォーマンスを改善しました。
既存の研究は、さまざまなモダリティから知識を学ぶために、グローバルな整合アプローチを採用しています。
これらのグローバルなアライメントアプローチは、分子断片やそれに対応するテキストの説明など、細粒の情報をキャプチャできません。これは、下流タスクに重要です。
さらに、既存のデータセットからのペアのローカルパーツ注釈データのデータ不足のため、同様のグローバルアライメント戦略を使用してそのような情報をモデル化することはできません。
この論文では、Smiles String and Textの表現を共同で学習するためのマルチモーダル分子表現学習フレームワークであるAtomasを提案します。
階層的適応アライメントモデルを設計して、2つのモダリティ間の細かい断片的な対応を同時に学習し、これらのフラグメントの表現を3つのレベルで整列させます。
さらに、Atomasのエンドツーエンドトレーニングフレームワークには、分子の理解と生成のタスクが組み込まれているため、より広範なダウンストリームタスクがサポートされます。
検索タスクでは、Atomasは堅牢な一般化能力を示し、平均してRecall@1の30.8%のベースラインを上回ります。
生成タスクでは、Atomasは、分子キャプションタスクと分子生成タスクの両方で最先端の結果を達成します。
さらに、階層的適応アライメントモデルの視覚化は、アプローチの化学的重要性をさらに確認します。
私たちのコードは、https://anonymous.4open.science/r/atomas-03c3にあります。

要約(オリジナル)

Molecule-and-text cross-modal representation learning has emerged as a promising direction for enhancing the quality of molecular representation, thereby improving performance in various scientific fields, including drug discovery and materials science. Existing studies adopt a global alignment approach to learn the knowledge from different modalities. These global alignment approaches fail to capture fine-grained information, such as molecular fragments and their corresponding textual description, which is crucial for downstream tasks. Furthermore, it is incapable to model such information using a similar global alignment strategy due to data scarcity of paired local part annotated data from existing datasets. In this paper, we propose Atomas, a multi-modal molecular representation learning framework to jointly learn representations from SMILES string and text. We design a Hierarchical Adaptive Alignment model to concurrently learn the fine-grained fragment correspondence between two modalities and align these representations of fragments in three levels. Additionally, Atomas’s end-to-end training framework incorporates the tasks of understanding and generating molecule, thereby supporting a wider range of downstream tasks. In the retrieval task, Atomas exhibits robust generalization ability and outperforms the baseline by 30.8% of recall@1 on average. In the generation task, Atomas achieves state-of-the-art results in both molecule captioning task and molecule generation task. Moreover, the visualization of the Hierarchical Adaptive Alignment model further confirms the chemical significance of our approach. Our codes can be found at https://anonymous.4open.science/r/Atomas-03C3.

arxiv情報

著者 Yikun Zhang,Geyan Ye,Chaohao Yuan,Bo Han,Long-Kai Huang,Jianhua Yao,Wei Liu,Yu Rong
発行日 2025-02-28 16:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.QM パーマリンク