Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective

要約

分子発見はさまざまな科学分野で重要な役割を果たし、目的に合わせた材料や医薬品の設計を前進させます。
しかし、既存の手法のほとんどは、ドメインの専門家に大きく依存しており、過度の計算コストが必要であるか、または次善のパフォーマンスに悩まされています。
一方、ChatGPT のような大規模言語モデル (LLM) は、自然言語の理解、一般化、コンテキスト内学習 (ICL) における強力な機能により、さまざまなクロスモーダル タスクで目覚ましいパフォーマンスを示しており、これにより前例のない機会が提供されます。
分子の発見を進めるために。
これまでのいくつかの研究では、このタスクに LLM を適用しようとしましたが、ドメイン固有のコーパスの欠如と、特化した LLM のトレーニングの難しさが依然として課題として残っています。
この研究では、分子キャプション翻訳のための新しい LLM ベースのフレームワーク (MolReGPT) を提案します。そこでは、インコンテキスト フューショット分子学習パラダイムが導入され、ChatGPT のような LLM による分子発見がインコンテキスト学習機能を実行できるようになります。
ドメイン固有の事前トレーニングや微調整は必要ありません。
MolReGPT は、分子類似性の原理を活用して、ローカル データベースから類似した分子とそのテキスト記述を取得し、LLM がコンテキストの例からタスクの知識を学習できるようにします。
分子の理解やテキストベースの分子生成など、分子キャプションの翻訳における MolReGPT の有効性を評価します。
実験結果は、微調整されたモデルと比較して、MolReGPT が MolT5-base を上回り、追加のトレーニングなしで MolT5-large に匹敵することを示しています。
私たちの知る限り、MolReGPT は、分子の発見を進めるために分子キャプションの翻訳においてコンテキスト内学習を介して LLM を活用した最初の研究です。
私たちの研究は、LLM アプリケーションの範囲を拡大するだけでなく、分子の発見と設計のための新しいパラダイムを提供します。

要約(オリジナル)

Molecule discovery plays a crucial role in various scientific fields, advancing the design of tailored materials and drugs. However, most of the existing methods heavily rely on domain experts, require excessive computational cost, or suffer from sub-optimal performance. On the other hand, Large Language Models (LLMs), like ChatGPT, have shown remarkable performance in various cross-modal tasks due to their powerful capabilities in natural language understanding, generalization, and in-context learning (ICL), which provides unprecedented opportunities to advance molecule discovery. Despite several previous works trying to apply LLMs in this task, the lack of domain-specific corpus and difficulties in training specialized LLMs still remain challenges. In this work, we propose a novel LLM-based framework (MolReGPT) for molecule-caption translation, where an In-Context Few-Shot Molecule Learning paradigm is introduced to empower molecule discovery with LLMs like ChatGPT to perform their in-context learning capability without domain-specific pre-training and fine-tuning. MolReGPT leverages the principle of molecular similarity to retrieve similar molecules and their text descriptions from a local database to enable LLMs to learn the task knowledge from context examples. We evaluate the effectiveness of MolReGPT on molecule-caption translation, including molecule understanding and text-based molecule generation. Experimental results show that compared to fine-tuned models, MolReGPT outperforms MolT5-base and is comparable to MolT5-large without additional training. To the best of our knowledge, MolReGPT is the first work to leverage LLMs via in-context learning in molecule-caption translation for advancing molecule discovery. Our work expands the scope of LLM applications, as well as providing a new paradigm for molecule discovery and design.

arxiv情報

著者 Jiatong Li,Yunqing Liu,Wenqi Fan,Xiao-Yong Wei,Hui Liu,Jiliang Tang,Qing Li
発行日 2024-04-22 17:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク