CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?

要約

科学的ピアレビューの中核部分は、論文が行う科学的主張を直接評価する専門家の批評を提供することです。
今ではもっともらしい(ジェネリック)レビューを自動的に生成することが可能になりましたが、これらのレビューが健全で、論文の主張に基づいていることを保証することは依然として困難です。
これらの課題のLLMベンチマークを促進するために、Neurips 2023および2024の提出物の注釈付きデータセットであるChrachecheckを紹介し、OpenReviewから採掘されたレビューを紹介します。
請求書は、レビューの弱点声明のためにMLの専門家によって豊富に注釈されており、論文は、特定された弱点の有効性、客観性、およびタイプの細かいラベルと同様に、彼らが異議を唱えていると主張しています。
私たちは、請求書によってサポートされている3つのクレーム中心のタスクにいくつかのLLMをベンチマークし、(1)紛争の弱点を(2)弱点を予測し、弱点を予測し、特異性を高めるために弱点を書き直し、(3)根拠に基づいた理由で論文の主張を検証することを要求します。
私たちの実験では、最先端のLLMは、(2)の脱力度ラベルを予測することができますが、他のすべてのタスクの人間の専門家と比較してパフォーマンスが低下し続けることが明らかになりました。

要約(オリジナル)

A core part of scientific peer review involves providing expert critiques that directly assess the scientific claims a paper makes. While it is now possible to automatically generate plausible (if generic) reviews, ensuring that these reviews are sound and grounded in the papers’ claims remains challenging. To facilitate LLM benchmarking on these challenges, we introduce CLAIMCHECK, an annotated dataset of NeurIPS 2023 and 2024 submissions and reviews mined from OpenReview. CLAIMCHECK is richly annotated by ML experts for weakness statements in the reviews and the paper claims that they dispute, as well as fine-grained labels of the validity, objectivity, and type of the identified weaknesses. We benchmark several LLMs on three claim-centric tasks supported by CLAIMCHECK, requiring models to (1) associate weaknesses with the claims they dispute, (2) predict fine-grained labels for weaknesses and rewrite the weaknesses to enhance their specificity, and (3) verify a paper’s claims with grounded reasoning. Our experiments reveal that cutting-edge LLMs, while capable of predicting weakness labels in (2), continue to underperform relative to human experts on all other tasks.

arxiv情報

著者 Jiefu Ou,William Gantt Walden,Kate Sanders,Zhengping Jiang,Kaiser Sun,Jeffrey Cheng,William Jurayj,Miriam Wanner,Shaobo Liang,Candice Morgan,Seunghoon Han,Weiqi Wang,Chandler May,Hannah Recknor,Daniel Khashabi,Benjamin Van Durme
発行日 2025-03-27 17:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク