要約
大規模な言語モデル(LLMS)は、文献分析や実験設計などの科学タスクの顕著な能力を示していますが(例えば、論文から重要な調査結果を正確に抽出したり、一貫した実験手順を生成したり)、既存の評価ベンチマークは主にリッチなコンテキスト入力を使用してパフォーマンスを評価します。
LiveIdeabenchを紹介します。LLMSの科学的アイデア生成を評価する包括的なベンチマークであるシングルキーワードプロンプトを使用して、多様な思考機能を評価します。
ギルフォードの創造性理論から描画された私たちのベンチマークは、最先端のLLMの動的なパネルを採用して、独創性、実現可能性、流ency性、柔軟性、明確さの5つの重要な側面にわたって生成されたアイデアを評価します。
22の科学的領域にまたがる1,180のキーワードにまたがる40を超える主要なモデルを使用した広範な実験を通じて、ベンチマークによって測定された科学的アイデア生成能力は、一般的な知能の標準メトリックによってあまり予測されていないことが明らかになりました。
我々の結果は、QWQ-32B-Previewのようなモデルが、一般的なインテリジェンススコアの大きなギャップにもかかわらず、Claude-3.7-Sonnet:Thinking:Thinkingなどのトップ層モデルに匹敵する創造的なパフォーマンスを実現することを示しています。
これらの調査結果は、科学的アイデア生成のための専門的な評価ベンチマークの必要性を強調し、LLMでこれらのアイデア生成能力を強化することで、一般的な問題解決能力を改善するために使用されるものとは異なるトレーニング戦略が必要になる可能性があり、科学プロセスのさまざまな段階に合わせたより広い範囲のAIツールを可能にする可能性があることを示唆しています。
要約(オリジナル)
While Large Language Models (LLMs) demonstrate remarkable capabilities in scientific tasks such as literature analysis and experimental design (e.g., accurately extracting key findings from papers or generating coherent experimental procedures), existing evaluation benchmarks primarily assess performance using rich contextual inputs. We introduce LiveIdeaBench, a comprehensive benchmark evaluating LLMs’ scientific idea generation by assessing divergent thinking capabilities using single-keyword prompts. Drawing from Guilford’s creativity theory, our benchmark employs a dynamic panel of state-of-the-art LLMs to assess generated ideas across five key dimensions: originality, feasibility, fluency, flexibility, and clarity. Through extensive experimentation with over 40 leading models across 1,180 keywords spanning 22 scientific domains, we reveal that the scientific idea generation capabilities measured by our benchmark, are poorly predicted by standard metrics of general intelligence. Our results demonstrate that models like QwQ-32B-preview achieve creative performance comparable to top-tier models such as claude-3.7-sonnet:thinking, despite significant gaps in their general intelligence scores. These findings highlight the need for specialized evaluation benchmarks for scientific idea generation and suggest that enhancing these idea generation capabilities in LLMs may require different training strategies than those used for improving general problem-solving abilities, potentially enabling a wider range of AI tools tailored for different stages of the scientific process.
arxiv情報
著者 | Kai Ruan,Xuan Wang,Jixiang Hong,Peng Wang,Yang Liu,Hao Sun |
発行日 | 2025-04-28 06:12:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google