Scientific Language Modeling: A Quantitative Review of Large Language Models in Molecular Science

要約

効率的な分子モデリングと設計は、新規分子の発見と探索にとって極めて重要であり、深層学習手法の組み込みはこの分野に革命をもたらしました。
特に、大規模言語モデル (LLM) は、自然言語処理 (NLP) の観点から科学的問題に取り組むための新しいアプローチを提供し、科学言語モデリング (SLM) と呼ばれる研究パラダイムを導入します。
ただし、2 つの重要な問題が残っています。それは、モデルとデータのモダリティ間の一致を定量化する方法と、モデルの知識学習の好みを特定する方法です。
これらの課題に対処するために、ChEBI-20-MM という名前のマルチモーダル ベンチマークを提案し、1263 件の実験を実行して、データ モダリティと知識獲得とのモデルの互換性を評価します。
モーダル遷移確率マトリックスを通じて、タスクに最適なモダリティに関する洞察を提供します。
さらに、局所的な特徴フィルタリングによってコンテキスト固有の知識マッピングを発見するための統計的に解釈可能なアプローチを導入します。
私たちの先駆的な分析は、学習メカニズムの探求を提供し、分子科学における SLM の進歩への道を開きます。

要約(オリジナル)

Efficient molecular modeling and design are crucial for the discovery and exploration of novel molecules, and the incorporation of deep learning methods has revolutionized this field. In particular, large language models (LLMs) offer a fresh approach to tackle scientific problems from a natural language processing (NLP) perspective, introducing a research paradigm called scientific language modeling (SLM). However, two key issues remain: how to quantify the match between model and data modalities and how to identify the knowledge-learning preferences of models. To address these challenges, we propose a multi-modal benchmark, named ChEBI-20-MM, and perform 1263 experiments to assess the model’s compatibility with data modalities and knowledge acquisition. Through the modal transition probability matrix, we provide insights into the most suitable modalities for tasks. Furthermore, we introduce a statistically interpretable approach to discover context-specific knowledge mapping by localized feature filtering. Our pioneering analysis offers an exploration of the learning mechanism and paves the way for advancing SLM in molecular science.

arxiv情報

著者 Pengfei Liu,Jun Tao,Zhixiang Ren
発行日 2024-02-06 16:12:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG パーマリンク