Large Language Models are In-Context Molecule Learners

要約

大規模な言語モデル(LLMS)は、生化学的タスク、特に分子と自然言語のテキストの間のギャップを埋めることを目的とする分子キャプション翻訳タスクで並外れた性能を示しています。
ただし、LLMSを分子キャプチャ翻訳タスクに適応させる以前の方法には、追加のドメイン固有のトレーニング段階が必要でした。分子スペースとテキストスペースの間の弱いアライメント、またはLLMSのスケールに厳しい要求を課しました。
課題を解決するために、LLMがコンテキスト分子チューニングを介してコンテキスト例から分子テキストアライメントを学習できるようにする新しいパラダイムとして、コンテキスト内分子適応(ICMA)を提案します。
具体的には、ICMAには次の3つの段階が組み込まれています:ハイブリッドコンテキストの検索、retリーバル後の再ランク、およびコンテキスト内分子チューニング。
当初、ハイブリッドコンテキストの検索は、BM25キャプションの検索と分子グラフの検索を利用して、同様の有益なコンテキストの例を取得します。
さらに、retリーバル後の再ランクは、シーケンスの逆転とランダムウォークの選択で構成され、検索結果の品質をさらに向上させます。
最後に、コンテキスト内分子チューニングは、取得した例を使用してLLMのコンテキスト内学習と推論能力のロックを解除し、LLMのパラメーターを分子とテキスト間のより良いアラインメントのために適応させます。
実験結果は、ICMAがLLMSが追加のトレーニングコーパスや複雑な構造なしで最先端または同等のパフォーマンスを達成できるように力を与えることができることを示しており、LLMが本質的にコンテキスト内分子学習者であることを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional performance in biochemical tasks, especially the molecule caption translation task, which aims to bridge the gap between molecules and natural language texts. However, previous methods in adapting LLMs to the molecule-caption translation task required extra domain-specific pre-training stages, suffered weak alignment between molecular and textual spaces, or imposed stringent demands on the scale of LLMs. To resolve the challenges, we propose In-Context Molecule Adaptation (ICMA), as a new paradigm allowing LLMs to learn the molecule-text alignment from context examples via In-Context Molecule Tuning. Specifically, ICMA incorporates the following three stages: Hybrid Context Retrieval, Post-retrieval Re-ranking, and In-context Molecule Tuning. Initially, Hybrid Context Retrieval utilizes BM25 Caption Retrieval and Molecule Graph Retrieval to retrieve similar informative context examples. Additionally, Post-retrieval Re-ranking is composed of Sequence Reversal and Random Walk selection to further improve the quality of retrieval results. Finally, In-Context Molecule Tuning unlocks the in-context learning and reasoning capability of LLMs with the retrieved examples and adapts the parameters of LLMs for better alignment between molecules and texts. Experimental results demonstrate that ICMA can empower LLMs to achieve state-of-the-art or comparable performance without extra training corpora and intricate structures, showing that LLMs are inherently in-context molecule learners.

arxiv情報

著者 Jiatong Li,Wei Liu,Zhihao Ding,Wenqi Fan,Yuqiang Li,Qing Li
発行日 2025-04-01 16:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク