Large Language Models are Zero Shot Hypothesis Proposers

要約

重要な科学的発見は人類文明の進歩を推進してきました。
科学文献とデータの爆発的な増加により、分野全体に情報の壁が生じ、科学的発見のペースが遅くなりました。
大規模言語モデル (LLM) には、これらの情報障壁を打ち破り、科学的発見の新たな波を促進することを約束する、グローバルかつ学際的な知識が豊富に含まれています。
ただし、科学的発見における LLM の可能性は正式に調査されていません。
この論文では、LLM が科学的仮説を提案できるかどうかを調査することから始めます。
この目的を達成するために、生物医学文献からの背景知識と仮説のペアで構成されるデータセットを構築します。
データセットは、公開日に基づいてトレーニング セット、可視テスト セット、未可視テスト セットに分割され、可視性を制御します。
その後、クローズドソースとオープンソース LLM の両方を含む、ゼロショット、少数ショット、および微調整設定で、さまざまな最上位の指示付きモデルの仮説生成機能を評価します。
さらに、仮説生成に関連する機能を強化するために、さまざまな役割設計と外部ツールを備えた LLM ベースのマルチエージェント協調フレームワークを導入します。
また、ChatGPT ベースの評価と人間による評価の両方について、生成された仮説を評価するための包括的なレビューを通じて 4 つの指標を設計します。
実験と分析を通じて、私たちは次の発見に達しました: 1) LLM は驚くべきことに、テスト文献からトレーニングされていないが検証された仮説を生成します。
2) 不確実性が高まると候補生成が容易になり、ゼロショット仮説生成機能が強化される可能性があります。
これらの発見は、新しい科学的発見の触媒としての LLM の可能性を強く裏付け、さらなる探求を導きます。

要約(オリジナル)

Significant scientific discoveries have driven the progress of human civilisation. The explosion of scientific literature and data has created information barriers across disciplines that have slowed the pace of scientific discovery. Large Language Models (LLMs) hold a wealth of global and interdisciplinary knowledge that promises to break down these information barriers and foster a new wave of scientific discovery. However, the potential of LLMs for scientific discovery has not been formally explored. In this paper, we start from investigating whether LLMs can propose scientific hypotheses. To this end, we construct a dataset consist of background knowledge and hypothesis pairs from biomedical literature. The dataset is divided into training, seen, and unseen test sets based on the publication date to control visibility. We subsequently evaluate the hypothesis generation capabilities of various top-tier instructed models in zero-shot, few-shot, and fine-tuning settings, including both closed and open-source LLMs. Additionally, we introduce an LLM-based multi-agent cooperative framework with different role designs and external tools to enhance the capabilities related to generating hypotheses. We also design four metrics through a comprehensive review to evaluate the generated hypotheses for both ChatGPT-based and human evaluations. Through experiments and analyses, we arrive at the following findings: 1) LLMs surprisingly generate untrained yet validated hypotheses from testing literature. 2) Increasing uncertainty facilitates candidate generation, potentially enhancing zero-shot hypothesis generation capabilities. These findings strongly support the potential of LLMs as catalysts for new scientific discoveries and guide further exploration.

arxiv情報

著者 Biqing Qi,Kaiyan Zhang,Haoxiang Li,Kai Tian,Sihang Zeng,Zhang-Ren Chen,Bowen Zhou
発行日 2023-11-10 10:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク