Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

要約

仮説帰納法は、科学者が世界について観察し、その観察を説明する仮説を提案しようとする場合の主な推論タイプとして認識されています。
仮説帰納法に関する過去の研究は、制約された設定の下で行われています。(1) データセット内の観察アノテーションは、慎重に手動で選択された文です (その結果、クローズドドメイン設定になります)。
(2) グラウンド トゥルースの仮説はほとんどが常識的な知識であるため、タスクの難易度は低くなります。
この研究では、社会科学の学術仮説発見のための最初の NLP データセットを提案することで、これらの問題に取り組みます。このデータセットは、最近のトップ社会科学出版物 50 冊で構成されています。
そして、50 件の論文のすべての研究仮説を立てるのに十分な情報を含む生のウェブ コーパスです。
最終的な目標は、生の Web コーパスの山だけを与えて、有効かつ新規で役立つ科学的仮説を自動的に生成するシステムを作成することです。
以前の設定とは異なり、新しいデータセットでは、(1) オープンドメイン データ (生の Web コーパス) を観測値として使用する必要があります。
(2) 人類にとって新しい仮説を提案すること。
このタスク用にマルチモジュール フレームワークが開発されているほか、基本フレームワークと比べてパフォーマンスが向上することを経験的に示す 3 つの異なるフィードバック メカニズムが開発されています。
最後に、私たちのフレームワークは、GPT-4 ベースの評価と専門家ベースの評価の両方の点で優れたパフォーマンスを示します。私たちの知る限り、これは、LLM が新しい (「文献に存在しない」) ものを生成できることを示した最初の研究です。
)そして有効な(「現実を反映している」)科学的仮説。

要約(オリジナル)

Hypothetical induction is recognized as the main reasoning type when scientists make observations about the world and try to propose hypotheses to explain those observations. Past research on hypothetical induction is under a constrained setting: (1) the observation annotations in the dataset are carefully manually handpicked sentences (resulting in a close-domain setting); and (2) the ground truth hypotheses are mostly commonsense knowledge, making the task less challenging. In this work, we tackle these problems by proposing the first NLP dataset for social science academic hypotheses discovery, consisting of 50 recent top social science publications; and a raw web corpus that contains enough information to make it possible to develop all the research hypotheses in the 50 papers. The final goal is to create systems that automatically generate valid, novel, and helpful scientific hypotheses, given only a pile of raw web corpus. Different from the previous settings, the new dataset requires (1) using open-domain data (raw web corpus) as observations; and (2) proposing hypotheses even new to humanity. A multi-module framework is developed for the task, as well as three different feedback mechanisms that empirically show performance gain over the base framework. Finally, our framework exhibits superior performance in terms of both GPT-4 based evaluation and expert-based evaluation.To the best of our knowledge, this is the first work showing that LLMs are able to generate novel (‘not existing in the literature’) and valid (‘reflecting reality’) scientific hypotheses.

arxiv情報

著者 Zonglin Yang,Xinya Du,Junxian Li,Jie Zheng,Soujanya Poria,Erik Cambria
発行日 2024-02-16 14:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク