要約
科学的発見は人間社会の繁栄に大きく貢献しており、最近の進歩により、LLM がこのプロセスを促進する可能性があることが示されています。
ただし、LLM が化学において新規かつ有効な仮説を発見できるかどうかはまだ不明です。
この研究では、この中心的な研究課題を調査します。LLM は、化学研究の背景 (研究課題および/または背景調査で構成される) のみが与えられた場合に、研究課題の領域に制限されることなく、新しく有効な化学研究仮説を自動的に発見できるでしょうか。
?
化学の専門家との広範な議論の後、化学仮説の大部分は研究背景といくつかのインスピレーションから導き出されるという仮説を提案します。
この重要な洞察をもとに、中心となる質問を 3 つの小さな基本的な質問に分割します。
簡単に説明すると、(1) LLM が良いインスピレーションを引き出せるかどうかという背景的な質問が与えられます。
(2) 背景とインスピレーションとともに、LLM が仮説を導くことができるかどうか。
(3) LLM が優れた仮説を特定して上位にランク付けできるかどうか。
これらの疑問を調査するために、2024 年に Nature、Science、または同様のレベルで出版された 51 件の化学論文からなるベンチマークを構築しました (2024 年以降、すべての論文はオンラインでのみ入手可能です)。
すべての論文は化学博士課程の学生によって、背景、インスピレーション、仮説の 3 つの要素に分割されます。
目標は、背景と、2023 年までのデータでトレーニングされた LLM を使用して、グラウンド トゥルースのインスピレーション論文からなるランダムに選択された大規模な化学文献コーパスだけを与えて、仮説を再発見することです。また、LLM ベースのマルチエージェント フレームワークも開発します。
仮定は、3 つの小さな質問を反映する 3 つの段階で構成されます。
提案された方法は、主要な革新をカバーする、グラウンドトゥルースの仮説と非常に高い類似性を持つ多くの仮説を再発見できます。
要約(オリジナル)
Scientific discovery contributes largely to human society’s prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.
arxiv情報
著者 | Zonglin Yang,Wanhao Liu,Ben Gao,Tong Xie,Yuqiang Li,Wanli Ouyang,Soujanya Poria,Erik Cambria,Dongzhan Zhou |
発行日 | 2024-10-28 16:39:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google