Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

要約

大規模言語モデル (LLM) の最近の進歩により、新しいアイデアを自律的に生成して検証する研究エージェントを提案する研究が増えており、LLM が科学的発見を加速する可能性があるという楽観的な見方が生まれています。
それにもかかわらず、LLM システムが研究プロセス全体を実行することはおろか、新しい専門家レベルのアイデアを生み出す最初のステップを実行できることを示す評価はありません。
私たちは、交絡因子を制御しながら研究アイデアの生成を評価する実験計画を確立し、NLP の専門研究者と LLM アイデア作成エージェントの間で最初の直接比較を行うことで、この問題に対処します。
100 人を超える NLP 研究者を募集して、LLM と人間のアイデアの両方について新しいアイデアとブラインド レビューを書いてもらうことで、研究アイデアの現在の LLM 能力に関する統計的に有意な初めての結論が得られました。つまり、LLM によって生成されたアイデアがより斬新であると判断されることがわかりました (p < 0.05) )人間の専門家のアイデアよりも実現可能性がわずかに弱いと判断されています。 エージェントのベースラインを詳しく調査すると、LLM の自己評価の失敗や世代の多様性の欠如など、リサーチ エージェントの構築と評価における未解決の問題が特定されます。 最後に、人間による新規性の判断は専門家であっても難しい場合があることを認め、これらのアイデアを完全なプロジェクトに実行するために研究者を募集するエンドツーエンドの研究デザインを提案します。これにより、これらの新規性と実現可能性の判断が結果として成果をもたらすかどうかを研究できるようになります。 研究成果に大きな違いがあること。

要約(オリジナル)

Recent advancements in large language models (LLMs) have sparked optimism about their potential to accelerate scientific discovery, with a growing number of works proposing research agents that autonomously generate and validate new ideas. Despite this, no evaluations have shown that LLM systems can take the very first step of producing novel, expert-level ideas, let alone perform the entire research process. We address this by establishing an experimental design that evaluates research idea generation while controlling for confounders and performs the first head-to-head comparison between expert NLP researchers and an LLM ideation agent. By recruiting over 100 NLP researchers to write novel ideas and blind reviews of both LLM and human ideas, we obtain the first statistically significant conclusion on current LLM capabilities for research ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than human expert ideas while being judged slightly weaker on feasibility. Studying our agent baselines closely, we identify open problems in building and evaluating research agents, including failures of LLM self-evaluation and their lack of diversity in generation. Finally, we acknowledge that human judgements of novelty can be difficult, even by experts, and propose an end-to-end study design which recruits researchers to execute these ideas into full projects, enabling us to study whether these novelty and feasibility judgements result in meaningful differences in research outcome.

arxiv情報

著者 Chenglei Si,Diyi Yang,Tatsunori Hashimoto
発行日 2024-09-06 08:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG パーマリンク