要約
同僚からのフィードバックに基づいて科学論文を改訂することは、深い科学的知識と推論だけでなく、高レベルのフィードバックに含まれる暗黙の要求を認識し、それに応じて原稿を更新するために可能な限り最善の方法を選択する能力も必要とする難しい作業です。
。
私たちはこのタスクを大規模な言語モデルに導入し、レビュー コメントとそれに対応する論文編集のデータセットである ARIES をリリースして、モデルのトレーニングと評価を可能にします。
コメント編集アラインメントと編集生成という 2 つのバージョンのタスクを研究し、GPT-4 を含むいくつかのベースラインを評価します。
特に、コメントが間接的な方法で表現されている場合、または編集がコメントの精神には対応しているが、正確な要求には対応していない場合、モデルは、コメントに対応する編集を識別することさえ困難であることがわかりました。
編集を生成するという任務を負った場合、GPT-4 は多くの場合、表面レベルでコメントに対処することに成功しますが、根底にある意図ではなくフィードバックの文言に厳密に従っており、人間が作成した編集よりも技術的な詳細がほとんど含まれていません。
私たちの形式化、データセット、分析が、この分野における将来の研究の基礎となることを願っています。
要約(オリジナル)
Revising scientific papers based on peer feedback is a challenging task that requires not only deep scientific knowledge and reasoning, but also the ability to recognize the implicit requests in high-level feedback and to choose the best of many possible ways to update the manuscript in response. We introduce this task for large language models and release ARIES, a dataset of review comments and their corresponding paper edits, to enable training and evaluating models. We study two versions of the task: comment-edit alignment and edit generation, and evaluate several baselines, including GPT-4. We find that models struggle even to identify the edits that correspond to a comment, especially in cases where the comment is phrased in an indirect way or where the edit addresses the spirit of a comment but not the precise request. When tasked with generating edits, GPT-4 often succeeds in addressing comments on a surface level, but it rigidly follows the wording of the feedback rather than the underlying intent, and includes fewer technical details than human-written edits. We hope that our formalization, dataset, and analysis will form a foundation for future work in this area.
arxiv情報
著者 | Mike D’Arcy,Alexis Ross,Erin Bransom,Bailey Kuehl,Jonathan Bragg,Tom Hope,Doug Downey |
発行日 | 2023-06-21 22:00:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google