要約
現在の会話言語モデルは、たとえ最初の判断が正しかったとしても、フォローアップの質問に直面すると判断が揺らぐことが多いことが観察されています。
この揺れは、信頼できる応答を生成し、ユーザーの信頼を構築する上で大きな課題となります。
この問題を包括的に評価するために、この矛盾を定量化するための 2 つの指標とともにフォローアップ質問メカニズムを導入し、現在の言語モデルにこの矛盾が広く存在していることを確認します。
この問題を軽減するために、クローズドソース モデルに対するさまざまなプロンプト戦略を検討します。
さらに、私たちは、合成された高品質の嗜好データを通じて、言語モデルに元々の正しい判断を維持するように教える、トレーニングベースのフレームワーク Unwavering-FQ を開発しました。
私たちの実験結果は、私たちのフレームワークの有効性と、モデルの一般的な機能を強化するその能力を確認しています (https://github.com/NUSTM/LLMs-Waver-In-Judgements)。
要約(オリジナル)
We observe that current conversational language models often waver in their judgements when faced with follow-up questions, even if the original judgement was correct. This wavering presents a significant challenge for generating reliable responses and building user trust. To comprehensively assess this issue, we introduce a Follow-up Questioning Mechanism along with two metrics to quantify this inconsistency, confirming its widespread presence in current language models. To mitigate this issue, we explore various prompting strategies for closed-source models; moreover, we develop a training-based framework Unwavering-FQ that teaches language models to maintain their originally correct judgements through synthesized high-quality preference data. Our experimental results confirm the effectiveness of our framework and its ability to enhance the general capabilities of models (https://github.com/NUSTM/LLMs-Waver-In-Judgements).
arxiv情報
著者 | Qiming Xie,Zengzhi Wang,Yi Feng,Rui Xia |
発行日 | 2024-02-26 08:26:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google