要約
大規模言語モデル (LLM) は、多くの場合、非常に曖昧なユーザー要求に応答する必要があります。
このような場合、LLM の最善の対応は、より多くの情報を引き出すために明確な質問をすることかもしれません。
既存の LLM は、そのような曖昧なリクエストに対して単一の解釈を前提として応答することが多く、異なる解釈を意図していたユーザーをイライラさせていることが観察されています。
これは、LLM 応答が以前のコンテキストに基づいてのみ評価される現在のプリファレンス データのラベル付け慣行が原因であると推測されます。
これに対処するために、将来のターンで期待される結果をシミュレートすることによって優先ラベルを割り当てることを提案します。
これにより、LLM は、将来のターンで各ユーザーの解釈に合わせた応答を生成できるときに、明確な質問をする方法を学習できるようになります。
オープンドメイン QA の実験では、私たちが提案する好みのラベル付け方法を使用してトレーニングしたシステムを、事前のコンテキストのみに基づいて好みを割り当てる標準的な方法と比較します。
私たちは、各ユーザーの解釈と期待される回答を回収できる明確な質問をする能力に基づいてシステムを評価しました。提案した方法を使用したトレーニングにより、LLM が明確な質問をするように訓練され、さまざまなユーザーからの回答セットと比較して F1 が 5% 向上したことがわかりました。
各クエリの解釈
要約(オリジナル)
Large language models (LLMs) must often respond to highly ambiguous user requests. In such cases, the LLM’s best response may be to ask a clarifying question to elicit more information. We observe existing LLMs often respond by presupposing a single interpretation of such ambiguous requests, frustrating users who intended a different interpretation. We speculate this is caused by current preference data labeling practice, where LLM responses are evaluated only on their prior contexts. To address this, we propose to assign preference labels by simulating their expected outcomes in the future turns. This allows LLMs to learn to ask clarifying questions when it can generate responses that are tailored to each user interpretation in future turns. In experiments on open-domain QA, we compare systems that trained using our proposed preference labeling methods against standard methods, which assign preferences based on only prior context. We evaluate systems based on their ability to ask clarifying questions that can recover each user’s interpretation and expected answer, and find that our training with our proposed method trains LLMs to ask clarifying questions with a 5% improvement in F1 measured against the answer set from different interpretations of each query
arxiv情報
著者 | Michael J. Q. Zhang,W. Bradley Knox,Eunsol Choi |
発行日 | 2024-10-17 17:29:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google