要約
近年、科学論文の急増により従来の審査メカニズムが圧倒され、その結果、出版物の質にばらつきが生じています。
既存の方法では、科学的レビューを自動化するための大規模言語モデル (LLM) の機能が検討されていますが、生成されるコンテンツは一般的または部分的なものであることがよくあります。
上記の問題に対処するために、自動論文レビュー フレームワーク SEA を導入します。
これは、標準化、評価、分析の 3 つのモジュールで構成されており、それぞれモデル SEA-S、SEA-E、SEA-A で表されます。
最初に、SEA-S は、論文の複数のレビューを統合するために GPT-4 のデータ標準化機能を抽出します。
次に、SEA-E は標準化されたデータを利用して微調整を行い、建設的なレビューを生成できるようにします。
最後に、SEA-A では、論文の内容とレビューの一貫性を評価するために、ミスマッチ スコアと呼ばれる新しい評価指標を導入しています。
さらに、一貫性を高めるための自己修正戦略を設計します。
8 つの会場から収集されたデータセットに関する広範な実験結果は、SEA が著者にとって論文を改善するための貴重な洞察を生成できることを示しています。
要約(オリジナル)
In recent years, the rapid increase in scientific papers has overwhelmed traditional review mechanisms, resulting in varying quality of publications. Although existing methods have explored the capabilities of Large Language Models (LLMs) for automated scientific reviewing, their generated contents are often generic or partial. To address the issues above, we introduce an automated paper reviewing framework SEA. It comprises of three modules: Standardization, Evaluation, and Analysis, which are represented by models SEA-S, SEA-E, and SEA-A, respectively. Initially, SEA-S distills data standardization capabilities of GPT-4 for integrating multiple reviews for a paper. Then, SEA-E utilizes standardized data for fine-tuning, enabling it to generate constructive reviews. Finally, SEA-A introduces a new evaluation metric called mismatch score to assess the consistency between paper contents and reviews. Moreover, we design a self-correction strategy to enhance the consistency. Extensive experimental results on datasets collected from eight venues show that SEA can generate valuable insights for authors to improve their papers.
arxiv情報
著者 | Jianxiang Yu,Zichen Ding,Jiaqi Tan,Kangyang Luo,Zhenmin Weng,Chenghua Gong,Long Zeng,Renjing Cui,Chengcheng Han,Qiushi Sun,Zhiyong Wu,Yunshi Lan,Xiang Li |
発行日 | 2024-10-01 17:13:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google