Language agents achieve superhuman synthesis of scientific knowledge

要約

言語モデルは誤った情報を幻覚させることが知られていますが、科学研究で使用するのに十分な精度と信頼性があるかどうかは不明です。
私たちは、情報検索、要約、矛盾検出タスクを含む現実世界の文献検索タスクで言語モデル エージェントを評価するための、人間と AI の厳密な比較方法論を開発しました。
事実性の向上のために最適化されたフロンティア言語モデル エージェントである PaperQA2 が、人間に対する制限 (つまり、インターネット、検索ツール、時間へのフル アクセス) なしで、3 つの現実的な文献調査タスクにおいて対象分野の専門家のパフォーマンスと同等、またはそれを超えていることを示します。
PaperQA2 は、人間が作成した既存の Wikipedia 記事よりもはるかに正確な、科学トピックの引用された Wikipedia スタイルの要約を作成します。
また、人間のパフォーマンスを超える PaperQA2 の設計を導いた LitQA2 と呼ばれる科学文献研究用のハード ベンチマークも紹介します。
最後に、PaperQA2 を適用して科学文献内の矛盾を特定します。これは人間にとって困難な重要な科学的タスクです。
PaperQA2 は、生物学論文のランダムなサブセットの論文ごとに 2.34 +/- 1.99 の矛盾を特定し、そのうち 70% は人間の専門家によって検証されています。
これらの結果は、言語モデル エージェントが科学文献に関する有意義なタスク全体にわたって分野専門家を超える能力を備えていることを示しています。

要約(オリジナル)

Language models are known to hallucinate incorrect information, and it is unclear if they are sufficiently accurate and reliable for use in scientific research. We developed a rigorous human-AI comparison methodology to evaluate language model agents on real-world literature search tasks covering information retrieval, summarization, and contradiction detection tasks. We show that PaperQA2, a frontier language model agent optimized for improved factuality, matches or exceeds subject matter expert performance on three realistic literature research tasks without any restrictions on humans (i.e., full access to internet, search tools, and time). PaperQA2 writes cited, Wikipedia-style summaries of scientific topics that are significantly more accurate than existing, human-written Wikipedia articles. We also introduce a hard benchmark for scientific literature research called LitQA2 that guided design of PaperQA2, leading to it exceeding human performance. Finally, we apply PaperQA2 to identify contradictions within the scientific literature, an important scientific task that is challenging for humans. PaperQA2 identifies 2.34 +/- 1.99 contradictions per paper in a random subset of biology papers, of which 70% are validated by human experts. These results demonstrate that language model agents are now capable of exceeding domain experts across meaningful tasks on scientific literature.

arxiv情報

著者 Michael D. Skarlinski,Sam Cox,Jon M. Laurent,James D. Braza,Michaela Hinks,Michael J. Hammerling,Manvitha Ponnapati,Samuel G. Rodriques,Andrew D. White
発行日 2024-09-26 15:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, physics.soc-ph パーマリンク