OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

要約

科学の進歩は、増え続ける文献を総合する研究者の能力にかかっています。
大規模言語モデル (LM) は科学者のこの作業を支援できるでしょうか?
OpenScholar は、4,500 万件のオープンアクセス論文から関連する文章を特定し、引用に裏付けられた回答を合成することで科学的な質問に答える、検索強化に特化した LM です。
OpenScholar を評価するために、コンピュータ サイエンス、物理学、神経科学、生物医学にわたる 2,967 の専門家が作成したクエリと 208 の長形式の回答で構成される、文献検索のための初の大規模マルチドメイン ベンチマークである ScholarQABench を開発しました。
ScholarQABench では、OpenScholar-8B は、より小型のオープン モデルであるにもかかわらず、正確性において GPT-4o を 5%、PaperQA2 を 7% 上回っています。
GPT4o は 78 ~ 90% の確率で引用を幻覚しますが、OpenScholar は人間の専門家と同等の引用精度を達成します。
OpenScholar のデータストア、レトリーバー、および自己フィードバック推論ループも、既製の LM を改善します。たとえば、OpenScholar-GPT4o は、GPT-4o の正確性を 12% 向上させます。
人間による評価では、専門家が作成した回答よりも OpenScholar-8B と OpenScholar-GPT4o の回答を好む割合はそれぞれ 51% と 70% で、GPT4o の回答は 32% でした。
コード、モデル、データストア、データ、および公開デモはすべてオープンソースです。

要約(オリジナル)

Scientific progress depends on researchers’ ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar’s datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o’s correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o’s 32%. We open-source all of our code, models, datastore, data and a public demo.

arxiv情報

著者 Akari Asai,Jacqueline He,Rulin Shao,Weijia Shi,Amanpreet Singh,Joseph Chee Chang,Kyle Lo,Luca Soldaini,Sergey Feldman,Mike D’arcy,David Wadden,Matt Latzke,Minyang Tian,Pan Ji,Shengyan Liu,Hao Tong,Bohao Wu,Yanyu Xiong,Luke Zettlemoyer,Graham Neubig,Dan Weld,Doug Downey,Wen-tau Yih,Pang Wei Koh,Hannaneh Hajishirzi
発行日 2024-11-21 15:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク