KIWI: A Dataset of Knowledge-Intensive Writing Instructions for Answering Research Questions

要約

ユーザーの指示に従うように適応された大規模言語モデル (LLM) は、現在、会話型エージェントとして広く導入されています。
この研究では、ますます一般的になっている指示に従うタスクの 1 つである、長文の解答を作成するための執筆支援を検討します。
このタスクに関する現在の LLM の能力を評価するために、科学分野における知識集約型の記述命令のデータセットである KIWI を構築します。
研究の質問、最初のモデルによって生成された回答、および一連の関連論文が与えられると、専門家のアノテーターは、モデルに対して回答を修正および改善するための指示を繰り返し出します。
3 つの最先端の LLM による 234 のインタラクション セッションから 1,260 のインタラクション ターンを収集しました。
各ターンには、ユーザーの指示、モデル応答、およびモデル応答に対する人間による評価が含まれます。
収集された回答の詳細な分析を通じて、すべてのモデルが既存の回答に新しい情報を組み込むこと、および正確かつ明確な編集を実行することに苦労していることがわかりました。
さらに、モデルは出力がユーザーの指示に正しく従ったかどうかを判断するのに苦労しており、その精度は人間の同意より少なくとも 10 ポイント低いことがわかりました。
私たちの調査結果は、KIWIが進歩を測定し、知識集約的なライティングタスクのLLMの指示に従う能力を向上させるための貴重なリソースになることを示しています。

要約(オリジナル)

Large language models (LLMs) adapted to follow user instructions are now widely deployed as conversational agents. In this work, we examine one increasingly common instruction-following task: providing writing assistance to compose a long-form answer. To evaluate the capabilities of current LLMs on this task, we construct KIWI, a dataset of knowledge-intensive writing instructions in the scientific domain. Given a research question, an initial model-generated answer and a set of relevant papers, an expert annotator iteratively issues instructions for the model to revise and improve its answer. We collect 1,260 interaction turns from 234 interaction sessions with three state-of-the-art LLMs. Each turn includes a user instruction, a model response, and a human evaluation of the model response. Through a detailed analysis of the collected responses, we find that all models struggle to incorporate new information into an existing answer, and to perform precise and unambiguous edits. Further, we find that models struggle to judge whether their outputs successfully followed user instructions, with accuracy at least 10 points short of human agreement. Our findings indicate that KIWI will be a valuable resource to measure progress and improve LLMs’ instruction-following capabilities for knowledge intensive writing tasks.

arxiv情報

著者 Fangyuan Xu,Kyle Lo,Luca Soldaini,Bailey Kuehl,Eunsol Choi,David Wadden
発行日 2024-03-06 17:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク