要約
私たちは、LLM が科学論文のフィードバックを生成する能力を研究し、内部ディスカッションに参加する複数の LLM インスタンスを使用したフィードバック生成アプローチである MARG を開発します。
論文テキストをエージェント間で分散することで、MARG はベース LLM の入力長制限を超えて論文の全文を利用できるようになり、エージェントを特化し、さまざまなコメント タイプ (実験、明瞭さ、影響力) に合わせたサブタスクを組み込むことで、有用性が向上します。
そしてフィードバックの具体性。
ユーザー調査では、GPT-4 を使用したベースライン手法は、半分以上の時間で一般的または非常に一般的なコメントを生成すると評価され、最良のベースラインでは全体的に良いと評価されたコメントは論文あたり 1.7 のみでした。
私たちのシステムは、具体的で役立つフィードバックを生成する GPT-4 の能力を大幅に向上させ、一般的なコメントの割合を 60% から 29% に減らし、論文ごとに 3.7 件の良いコメントを生成します (2.2 倍の改善)。
要約(オリジナル)
We study the ability of LLMs to generate feedback for scientific papers and develop MARG, a feedback generation approach using multiple LLM instances that engage in internal discussion. By distributing paper text across agents, MARG can consume the full text of papers beyond the input length limitations of the base LLM, and by specializing agents and incorporating sub-tasks tailored to different comment types (experiments, clarity, impact) it improves the helpfulness and specificity of feedback. In a user study, baseline methods using GPT-4 were rated as producing generic or very generic comments more than half the time, and only 1.7 comments per paper were rated as good overall in the best baseline. Our system substantially improves the ability of GPT-4 to generate specific and helpful feedback, reducing the rate of generic comments from 60% to 29% and generating 3.7 good comments per paper (a 2.2x improvement).
arxiv情報
著者 | Mike D’Arcy,Tom Hope,Larry Birnbaum,Doug Downey |
発行日 | 2024-01-08 22:24:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google