Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

要約

仮説帰納法は、科学者が世界について観察し、その観察を説明する仮説を提案しようとする場合の主な推論タイプとして認識されています。
仮説帰納法に関する過去の研究には、(1) データセットの観察アノテーションは生の Web コーパスではなく、手動で選択された文である (結果的にクローズドメイン設定となる) という限定された設定があります。
(2) グラウンド トゥルース仮説の注釈はほとんどが常識的な知識であるため、タスクの難易度は低くなります。
この研究では、社会科学の学術的仮説発見のための最初の NLP データセットを提案します。このデータセットは、社会科学のトップ ジャーナルに掲載された 50 件の最近の論文で構成されています。
出版された論文で仮説を立てるのに必要な生のウェブコーパスもデータセットに収集されます。最終目標は、生のウェブコーパスの山だけが与えられた場合に、有効で斬新で(人間の研究者にとって)役立つ仮説を自動的に生成するシステムを作成することです。
ウェブコーパス。
新しいデータセットは、(1) 生の Web コーパスを観察として使用する必要があるため、以前の問題に取り組むことができます。
(2) 人類にとって新しい仮説を提案する。
このタスク用にマルチモジュール フレームワークが開発されているほか、基本フレームワークと比べてパフォーマンスが向上することを経験的に示す 3 つの異なるフィードバック メカニズムが開発されています。
最後に、私たちのフレームワークは、GPT-4 ベースの評価と社会科学の専門家による評価の両方の点で高いパフォーマンスを示します。

要約(オリジナル)

Hypothetical induction is recognized as the main reasoning type when scientists make observations about the world and try to propose hypotheses to explain those observations. Past research on hypothetical induction has a limited setting that (1) the observation annotations of the dataset are not raw web corpus but are manually selected sentences (resulting in a close-domain setting); and (2) the ground truth hypotheses annotations are mostly commonsense knowledge, making the task less challenging. In this work, we propose the first NLP dataset for social science academic hypotheses discovery, consisting of 50 recent papers published in top social science journals. Raw web corpora that are necessary for developing hypotheses in the published papers are also collected in the dataset, with the final goal of creating a system that automatically generates valid, novel, and helpful (to human researchers) hypotheses, given only a pile of raw web corpora. The new dataset can tackle the previous problems because it requires to (1) use raw web corpora as observations; and (2) propose hypotheses even new to humanity. A multi-module framework is developed for the task, as well as three different feedback mechanisms that empirically show performance gain over the base framework. Finally, our framework exhibits high performance in terms of both GPT-4 based evaluation and social science expert evaluation.

arxiv情報

著者 Zonglin Yang,Xinya Du,Junxian Li,Jie Zheng,Soujanya Poria,Erik Cambria
発行日 2023-09-06 05:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク