Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions

要約

大規模な言語モデル(LLM)は、非常に曖昧なユーザーリクエストにしばしば応答する必要があります。
そのような場合、LLMの最善の対応は、より多くの情報を引き出すために明確な質問をすることです。
既存のLLMは、多くの場合、このような曖昧な要求の単一の解釈を前提とすることで対応し、異なる解釈を意図したイライラするユーザーに対応します。
これは、LLM応答が以前のコンテキストでのみ評価される現在の設定データラベル付けの実践によって引き起こされると推測します。
これに対処するために、将来のターンで予想される結果をシミュレートすることにより、優先ラベルを割り当てます。
これにより、LLMSは、将来のターンで各ユーザーの解釈に合わせた応答を生成できるときに、明確な質問をすることを学ぶことができます。
複数の注釈を備えたオープンドメインQAデータセットでは、各ユーザーの解釈と予想される回答を回復するために明確な質問をする能力に基づいてシステムを評価します。
提案された優先ラベル付け方法を使用してトレーニングされたシステムを標準の方法と比較します。これは、以前のコンテキストのみに基づいて設定を割り当てます。
私たちの方法は、各クエリの異なる解釈からの回答セットに対して測定されたF1の5%の改善を達成し、将来の会話ターンをモデリングする価値を示しています。
さらに、私たちの方法を使用してモデルを訓練するために、明確な質問をする時期を慎重に決定し、説明が不要な場合に質問に直接答えることができることを実証します。
実験では、この方法では、既存の方法よりもそのような判断の精度が3%改善されることがわかります。

要約(オリジナル)

Large language models (LLMs) must often respond to highly ambiguous user requests. In such cases, the LLM’s best response may be to ask a clarifying question to elicit more information. Existing LLMs often respond by presupposing a single interpretation of such ambiguous requests, frustrating users who intended a different interpretation. We speculate this is caused by current preference data labeling practice, where LLM responses are evaluated only on their prior contexts. To address this, we assign preference labels by simulating their expected outcomes in future turns. This allows LLMs to learn to ask clarifying questions when it can generate responses that are tailored to each user interpretation in future turns. On open-domain QA datasets with multiple annotations, we evaluate systems based on their ability to ask clarifying questions to recover each user’s interpretation and expected answer. We compare systems trained using our proposed preference labeling methods against standard methods, which assign preferences based on only prior context. Our method achieves a 5% improvement in F1 measured against the answer set from different interpretations of each query, showing the value of modeling future conversation turns. We further demonstrate that our method can be used to train models to judiciously determine when to ask clarifying questions, directly answering the question when clarification is unnecessary. In our experiments, we find that our method achieves a 3% improvement in accuracy of such judgments over existing methods.

arxiv情報

著者 Michael J. Q. Zhang,W. Bradley Knox,Eunsol Choi
発行日 2025-03-18 14:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク