Automatically Evaluating the Paper Reviewing Capability of Large Language Models

要約

ピアレビューは科学的な進歩には不可欠ですが、レビュアーの不足やワークロードの増加などの課題に直面しています。
大規模な言語モデル(LLM)は支援を提供する可能性を示していますが、研究は生成するレビューの大きな制限を報告しています。
洞察は価値がありますが、特にLLMの開発が急速にペースであることを考えると、かなりの時間と労力がかかるため、分析を実施することは困難です。
課題に対処するために、LLMSのペーパーレビュー機能を専門家に生成したレビューと比較することにより、自動評価パイプラインを開発しました。
676のOpenReviewペーパーで構成されるデータセットを構築することにより、LLMSと専門家の間の強度と脱力感の識別に関する合意を調べました。
結果は、LLMがバランスの取れた視点を欠いており、批判する際に斬新な評価を大幅に見落とし、貧弱な受け入れ決定を生み出すことを示しました。
自動化されたパイプラインにより、LLMSのペーパーレビュー機能のスケーラブルな評価が時間の経過とともに評価されます。

要約(オリジナル)

Peer review is essential for scientific progress, but it faces challenges such as reviewer shortages and growing workloads. Although Large Language Models (LLMs) show potential for providing assistance, research has reported significant limitations in the reviews they generate. While the insights are valuable, conducting the analysis is challenging due to the considerable time and effort required, especially given the rapid pace of LLM developments. To address the challenge, we developed an automatic evaluation pipeline to assess the LLMs’ paper review capability by comparing them with expert-generated reviews. By constructing a dataset consisting of 676 OpenReview papers, we examined the agreement between LLMs and experts in their strength and weakness identifications. The results showed that LLMs lack balanced perspectives, significantly overlook novelty assessment when criticizing, and produce poor acceptance decisions. Our automated pipeline enables a scalable evaluation of LLMs’ paper review capability over time.

arxiv情報

著者 Hyungyu Shin,Jingyu Tang,Yoonjoo Lee,Nayoung Kim,Hyunseung Lim,Ji Yong Cho,Hwajung Hong,Moontae Lee,Juho Kim
発行日 2025-04-24 06:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク