要約
分子・テキスト横断的表現学習は、分子表現の質を向上させ、それによって様々な科学分野におけるパフォーマンスを向上させる有望な方向性として浮上してきた。しかし、ほとんどのアプローチは、異なるモダリティからの知識を学習するためにグローバルアライメントアプローチを採用しており、分子とテキストの断片や立体異性体のニュアンスなど、下流のタスクにとって重要なきめ細かな情報を捉えることができない可能性がある。さらに、既存のデータセットには微細な断片に関する注釈がないため、同様のグローバルアライメント戦略を用いてそのような情報をモデル化することができない。本稿では、SMILES文字列とテキストから表現を共同で学習する階層的分子表現学習フレームワークAtomasを提案する。階層的適応アライメントモデルを設計し、2つのモダリティ間のきめ細かな断片対応を自動的に学習し、これらの表現を3つの意味レベルでアライメントする。Atomasのエンドツーエンドの学習フレームワークは、分子の理解と生成をサポートし、より幅広い下流のタスクを可能にする。Atomasは11のデータセットの12のタスクで優れた性能を達成し、11のベースラインモデルを凌駕した。スケーリング実験により、Atomasの頑健性とスケーラビリティがさらに実証された。さらに、人間の専門家によって検証された可視化と定性分析により、我々のアプローチの化学的妥当性が確認された。コードはhttps://github.com/yikunpku/Atomas。
要約(オリジナル)
Molecule-and-text cross-modal representation learning has emerged as a promising direction for enhancing the quality of molecular representation, thereby improving performance in various scientific fields. However, most approaches employ a global alignment approach to learn the knowledge from different modalities that may fail to capture fine-grained information, such as molecule-and-text fragments and stereoisomeric nuances, which is crucial for downstream tasks. Furthermore, it is incapable of modeling such information using a similar global alignment strategy due to the lack of annotations about the fine-grained fragments in the existing dataset. In this paper, we propose Atomas, a hierarchical molecular representation learning framework that jointly learns representations from SMILES strings and text. We design a Hierarchical Adaptive Alignment model to automatically learn the fine-grained fragment correspondence between two modalities and align these representations at three semantic levels. Atomas’s end-to-end training framework supports understanding and generating molecules, enabling a wider range of downstream tasks. Atomas achieves superior performance across 12 tasks on 11 datasets, outperforming 11 baseline models thus highlighting the effectiveness and versatility of our method. Scaling experiments further demonstrate Atomas’s robustness and scalability. Moreover, visualization and qualitative analysis, validated by human experts, confirm the chemical relevance of our approach. Codes are released on https://github.com/yikunpku/Atomas.
arxiv情報
著者 | Yikun Zhang,Geyan Ye,Chaohao Yuan,Bo Han,Long-Kai Huang,Jianhua Yao,Wei Liu,Yu Rong |
発行日 | 2025-03-03 16:34:19+00:00 |
arxivサイト | arxiv_id(pdf) |