OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews

要約

機械学習と AI のカンファレンス論文の高品質な査読を生成するオープンソース システムである OpenReviewer を紹介します。
その中核となるのは、トップ ML カンファレンスからの 79,000 件の専門家レビューに基づいて特に微調整された 8B パラメーター言語モデルである Llama-OpenReviewer-8B です。
PDF 論文提出およびレビュー テンプレートを入力として指定すると、OpenReviewer は方程式や表などの技術的な内容を含む全文を抽出し、会議固有のガイドラインに従って構造化されたレビューを生成します。
400 のテスト用紙に対する私たちの評価は、GPT-4 や Claude-3.5 などの汎用 LLM と比較して、OpenReviewer がはるかに批判的で現実的なレビューを生成することを示しています。
他の LLM は過度に肯定的な評価をする傾向がありますが、OpenReviewer の推奨事項は人間のレビュー担当者の評価の分布とほぼ一致しています。
このシステムは、投稿前に原稿を改善するための迅速で建設的なフィードバックを著者に提供しますが、人間による査読に代わるものではありません。
OpenReviewer は、オンライン デモおよびオープンソース ツールとして利用できます。

要約(オリジナル)

We present OpenReviewer, an open-source system for generating high-quality peer reviews of machine learning and AI conference papers. At its core is Llama-OpenReviewer-8B, an 8B parameter language model specifically fine-tuned on 79,000 expert reviews from top ML conferences. Given a PDF paper submission and review template as input, OpenReviewer extracts the full text, including technical content like equations and tables, and generates a structured review following conference-specific guidelines. Our evaluation on 400 test papers shows that OpenReviewer produces significantly more critical and realistic reviews compared to general-purpose LLMs like GPT-4 and Claude-3.5. While other LLMs tend toward overly positive assessments, OpenReviewer’s recommendations closely match the distribution of human reviewer ratings. The system provides authors with rapid, constructive feedback to improve their manuscripts before submission, though it is not intended to replace human peer review. OpenReviewer is available as an online demo and open-source tool.

arxiv情報

著者 Maximilian Idahl,Zahra Ahmadi
発行日 2024-12-16 16:31:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク