要約
アカデミックペーパーレビューは、研究コミュニティ内で重要でありながら時間のかかるタスクです。
学術出版物の量が増えるにつれて、レビュープロセスを自動化することが重要な課題になりました。
主な問題は、人間のレビュアーの判断と一致する、包括的で正確で、推論的なレビューコメントを生成することにあります。
このペーパーでは、レビューアジェントを提案することにより、この課題に対処します。これは、大規模な言語モデル(LLM)を活用してアカデミックペーパーレビューを生成するフレームワークです。
最初に、LLMエージェントのトレーニング用に設計された142kのレビューコメントで構成される新しいレビューコットを紹介します。
このデータセットは、人間のレビュー担当者が論文を妨害し、関連する作品を参照し、長所と短所を特定し、レビューの結論を生み出すという構造化された推論プロセスをエミュレートします。
これに基づいて、関連するペーパー認識トレーニング方法を使用して、構造化された推論を可能にするLLMレビュアーエージェントを訓練します。
さらに、レビューコメント生成プロセスを強化するために、マルチロールのマルチLLMエージェントレビューフレームワークであるReviewAgentを構築します。
さらに、LLMSによって生成されたレビューコメントを評価するためのベンチマークであるReviewBenchを提案します。
ReviewBenchでの実験結果は、既存のLLMがレビュープロセスを自動化するためのある程度の可能性を示しているが、人間が生成したレビューと比較してギャップが残っていることを示しています。
さらに、ReviewAgentsフレームワークはこのギャップをさらに狭め、レビューコメントを生成する際に高度なLLMを上回ります。
要約(オリジナル)
Academic paper review is a critical yet time-consuming task within the research community. With the increasing volume of academic publications, automating the review process has become a significant challenge. The primary issue lies in generating comprehensive, accurate, and reasoning-consistent review comments that align with human reviewers’ judgments. In this paper, we address this challenge by proposing ReviewAgents, a framework that leverages large language models (LLMs) to generate academic paper reviews. We first introduce a novel dataset, Review-CoT, consisting of 142k review comments, designed for training LLM agents. This dataset emulates the structured reasoning process of human reviewers-summarizing the paper, referencing relevant works, identifying strengths and weaknesses, and generating a review conclusion. Building upon this, we train LLM reviewer agents capable of structured reasoning using a relevant-paper-aware training method. Furthermore, we construct ReviewAgents, a multi-role, multi-LLM agent review framework, to enhance the review comment generation process. Additionally, we propose ReviewBench, a benchmark for evaluating the review comments generated by LLMs. Our experimental results on ReviewBench demonstrate that while existing LLMs exhibit a certain degree of potential for automating the review process, there remains a gap when compared to human-generated reviews. Moreover, our ReviewAgents framework further narrows this gap, outperforming advanced LLMs in generating review comments.
arxiv情報
著者 | Xian Gao,Jiacheng Ruan,Jingsheng Gao,Ting Liu,Yuzhuo Fu |
発行日 | 2025-03-11 14:56:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google