Sparks of Science: Hypothesis Generation Using Structured Paper Data

要約

斬新で創造的な科学的仮説を生成することは、人工的な一般情報を達成するための基礎です。
大規模な言語と推論モデルは、科学的に情報に基づいた仮説の体系的な創造、選択、および検証を支援する可能性があります。
しかし、現在の基礎モデルは、斬新で実行可能な科学的アイデアを作成するのに苦労しています。
理由の1つは、科学的仮説生成(SHG)を自然言語生成(NLG)タスクとしてフレーム化する専用のデータセットがないことです。
このホワイトペーパーでは、約5500の構造化された問題ヒポテシスペアの最初のデータセットであるHypogenを紹介します。ビットフリップスパークスキーマで構成された一流のコンピューターサイエンス会議から抽出されました。ビットは従来の仮定です。
Hypogenは、ビットからフリップまでの知的プロセスを反映する明示的なチェーンのコンポーネントを独自に統合します。
条件付き言語モデリングとしてのフレーミング仮説の生成は、モデルがビットフリップスパークで微調整され、季節ごとに微調整されていることを実証します(そして、推論ではビットのみを提供します)が、仮説の全体的な品質の改善につながることを実証します。
当社の評価では、全体的な品質評価のために、自動化されたメトリックとLLMジャッジランキングを採用しています。
Hypogenデータセットで微調整することにより、生成された仮説の斬新さ、実現可能性、全体的な品質を改善することを示します。
仮説データセットは、huggingface.co/datasets/universetbd/hypogen-dr1で公開されています。

要約(オリジナル)

Generating novel and creative scientific hypotheses is a cornerstone in achieving Artificial General Intelligence. Large language and reasoning models have the potential to aid in the systematic creation, selection, and validation of scientifically informed hypotheses. However, current foundation models often struggle to produce scientific ideas that are both novel and feasible. One reason is the lack of a dedicated dataset that frames Scientific Hypothesis Generation (SHG) as a Natural Language Generation (NLG) task. In this paper, we introduce HypoGen, the first dataset of approximately 5500 structured problem-hypothesis pairs extracted from top-tier computer science conferences structured with a Bit-Flip-Spark schema, where the Bit is the conventional assumption, the Spark is the key insight or conceptual leap, and the Flip is the resulting counterproposal. HypoGen uniquely integrates an explicit Chain-of-Reasoning component that reflects the intellectual process from Bit to Flip. We demonstrate that framing hypothesis generation as conditional language modelling, with the model fine-tuned on Bit-Flip-Spark and the Chain-of-Reasoning (and where, at inference, we only provide the Bit), leads to improvements in the overall quality of the hypotheses. Our evaluation employs automated metrics and LLM judge rankings for overall quality assessment. We show that by fine-tuning on our HypoGen dataset we improve the novelty, feasibility, and overall quality of the generated hypotheses. The HypoGen dataset is publicly available at huggingface.co/datasets/UniverseTBD/hypogen-dr1.

arxiv情報

著者 Charles O’Neill,Tirthankar Ghosal,Roberta Răileanu,Mike Walmsley,Thang Bui,Kevin Schawinski,Ioana Ciucă
発行日 2025-04-17 14:29:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク