Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models

要約

分子特性の予測は創薬の重要な基盤です。
近年、事前トレーニングされた深層学習モデルがこのタスクに広く適用されています。
事前の生物学的ドメインの知識を事前トレーニングフレームワークに組み込むいくつかのアプローチは、目覚ましい結果を達成しています。
ただし、これらの方法は生化学の専門家に大きく依存しており、膨大な量の専門知識文献を検索して要約するには時間と費用がかかります。
大規模言語モデル (LLM) は、一般知識を理解し、効率的に提供する点で顕著なパフォーマンスを示しています。
それにもかかわらず、彼らは時折幻覚を示し、領域固有の知識を生成する際の精度に欠けます。
逆に、ドメイン固有の小型モデル (DSM) は豊富なドメイン知識を備えており、分子ドメイン関連のメトリクスを正確に計算できます。
ただし、モデルのサイズが限られており、機能が単一であるため、包括的な表現学習に必要な幅広い知識が不足しています。
分子特性予測において両方のアプローチの利点を活用するために、大規模言語モデルとドメイン固有の小規模モデル (MolGraph-LarDo) を統合する新しい分子グラフ表現学習フレームワークを提案します。
技術的には、DSM を導入して LLM によって提供される知識を調整する 2 段階のプロンプト戦略を設計します。これにより、ドメイン固有の情報の精度が向上し、LLM が分子サンプルのより正確なテキスト記述を生成できるようになります。
続いて、マルチモーダルアライメント手法を採用して、分子グラフとそれに対応する説明テキストを含むさまざまなモダリティを調整し、分子表現の事前トレーニングをガイドします。
広範な実験により、提案された方法の有効性が実証されています。

要約(オリジナル)

Molecular property prediction is a crucial foundation for drug discovery. In recent years, pre-trained deep learning models have been widely applied to this task. Some approaches that incorporate prior biological domain knowledge into the pre-training framework have achieved impressive results. However, these methods heavily rely on biochemical experts, and retrieving and summarizing vast amounts of domain knowledge literature is both time-consuming and expensive. Large Language Models (LLMs) have demonstrated remarkable performance in understanding and efficiently providing general knowledge. Nevertheless, they occasionally exhibit hallucinations and lack precision in generating domain-specific knowledge. Conversely, Domain-specific Small Models (DSMs) possess rich domain knowledge and can accurately calculate molecular domain-related metrics. However, due to their limited model size and singular functionality, they lack the breadth of knowledge necessary for comprehensive representation learning. To leverage the advantages of both approaches in molecular property prediction, we propose a novel Molecular Graph representation learning framework that integrates Large language models and Domain-specific small models (MolGraph-LarDo). Technically, we design a two-stage prompt strategy where DSMs are introduced to calibrate the knowledge provided by LLMs, enhancing the accuracy of domain-specific information and thus enabling LLMs to generate more precise textual descriptions for molecular samples. Subsequently, we employ a multi-modal alignment method to coordinate various modalities, including molecular graphs and their corresponding descriptive texts, to guide the pre-training of molecular representations. Extensive experiments demonstrate the effectiveness of the proposed method.

arxiv情報

著者 Tianyu Zhang,Yuxiang Ren,Chengbin Hou,Hairong Lv,Xuegong Zhang
発行日 2024-08-19 16:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, physics.chem-ph, q-bio.BM パーマリンク