Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design

要約

深層学習モデルによる分子特性の予測と生成的設計は、新しい高性能材料の開発を加速する可能性があるため、熱心な研究の対象となっています。
最近では、大規模言語モデル (LLM) と、より複雑な研究​​タスクのコンテキストで予測を行うために事前トレーニングされたモデルを利用できる LLM 駆動エージェントのシステムの出現により、これらのワークフローが大幅に強化されました。
効果的ではありますが、材料設計タスクのための重要な情報の取得に関して、エージェント システム内にはまだ大幅な改善の余地があります。
さらに、潜在表現を活用してエージェントシステム内でクロスモーダル検索の拡張生成を促進し、タスク固有の材料設計を可能にするなど、予測深層学習モデルの別の使用法は未開発のままです。
ここでは、事前にトレーニングされた大規模な化学基礎モデルが、小分子、複雑な高分子材料、および反応の両方についてセマンティックな化学情報の検索を可能にする基礎として機能できることを実証します。
さらに、化学基礎モデルを OpenCLIP などの画像モデルと組み合わせて使用​​すると、複数の特性データ ドメインにわたる前例のないクエリと情報検索が容易になることを示します。
最後に、これらのシステムをマルチエージェント システム内に統合して、複雑な研究​​タスクの構造およびトポロジベースの自然言語クエリと情報検索を容易にすることを実証します。

要約(オリジナル)

Molecular property prediction and generative design via deep learning models has been the subject of intense research given its potential to accelerate development of new, high-performance materials. More recently, these workflows have been significantly augmented with the advent of large language models (LLMs) and systems of LLM-driven agents capable of utilizing pre-trained models to make predictions in the context of more complex research tasks. While effective, there is still room for substantial improvement within the agentic systems on the retrieval of salient information for material design tasks. Moreover, alternative uses of predictive deep learning models, such as leveraging their latent representations to facilitate cross-modal retrieval augmented generation within agentic systems to enable task-specific materials design, has remained unexplored. Herein, we demonstrate that large, pre-trained chemistry foundation models can serve as a basis for enabling semantic chemistry information retrieval for both small-molecules, complex polymeric materials, and reactions. Additionally, we show the use of chemistry foundation models in conjunction with image models such as OpenCLIP facilitate unprecedented queries and information retrieval across multiple characterization data domains. Finally, we demonstrate the integration of these systems within multi-agent systems to facilitate structure and topological-based natural language queries and information retrieval for complex research tasks.

arxiv情報

著者 Nathaniel H. Park,Tiffany J. Callahan,James L. Hedrick,Tim Erdmann,Sara Capponi
発行日 2024-08-21 17:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク