要約
LLMSは反対に直面したときに自信を正確に調整できますか?
静的な事実ベースの質問タスクに関するキャリブレーションを測定する以前の研究に基づいて、ダイナミックで敵対的な議論の設定で大きな言語モデル(LLM)を評価し、2つの現実的な要因をユニークに組み合わせます。
私たちは、10の最先端のLLMの間で60の3ラウンドの政策討論を組織しました。モデルは、各ラウンドの後に勝つことで自信(0-100)を個人的に評価しました。
パターンに関する5つのパターンを観察しました。(1)体系的な自信:モデルは、合理的な50%のベースラインと合理的な50%のベースラインの平均初期信頼性で議論を開始しました。
(2)信頼のエスカレーション:議論が進むにつれて自信を減らすのではなく、討論者は勝利の確率を増やし、最終ラウンドで平均83%になりました。
(3)相互過大評価:議論の61.7%で、双方は同時に> = 75%の勝利の確率、論理的不可能性を主張した。
(4)永続的な自己脱線バイアス:同一のコピーを議論するモデルは、64.1%から75.2%に信頼性を高めました。
勝利の可能性を明示的に通知したとしても、正確に50%であったとしても、自信はまだ上昇しました(50.0%から57.1%)。
(5)プライベートな推論の誤ったもの:モデルのプライベートスクラッチパッド思考は、一般の信頼評価とは異なる場合があり、考え方の推論の忠実さについて懸念を引き起こしました。
これらの結果は、LLMが動的なマルチターンタスクに対する信念を正確に評価または更新する能力を欠いていることを示唆しています。
LLM出力がアシスタントの役割やエージェント設定で慎重にレビューすることなく展開されるため、大きな懸念が展開されます。
要約(オリジナル)
Can LLMs accurately adjust their confidence when facing opposition? Building on previous studies measuring calibration on static fact-based question-answering tasks, we evaluate Large Language Models (LLMs) in a dynamic, adversarial debate setting, uniquely combining two realistic factors: (a) a multi-turn format requiring models to update beliefs as new information emerges, and (b) a zero-sum structure to control for task-related uncertainty, since mutual high-confidence claims imply systematic overconfidence. We organized 60 three-round policy debates among ten state-of-the-art LLMs, with models privately rating their confidence (0-100) in winning after each round. We observed five concerning patterns: (1) Systematic overconfidence: models began debates with average initial confidence of 72.9% vs. a rational 50% baseline. (2) Confidence escalation: rather than reducing confidence as debates progressed, debaters increased their win probabilities, averaging 83% by the final round. (3) Mutual overestimation: in 61.7% of debates, both sides simultaneously claimed >=75% probability of victory, a logical impossibility. (4) Persistent self-debate bias: models debating identical copies increased confidence from 64.1% to 75.2%; even when explicitly informed their chance of winning was exactly 50%, confidence still rose (from 50.0% to 57.1%). (5) Misaligned private reasoning: models’ private scratchpad thoughts sometimes differed from their public confidence ratings, raising concerns about faithfulness of chain-of-thought reasoning. These results suggest LLMs lack the ability to accurately self-assess or update their beliefs in dynamic, multi-turn tasks; a major concern as LLM outputs are deployed without careful review in assistant roles or agentic settings.
arxiv情報
著者 | Pradyumna Shyama Prasad,Minh Nhat Nguyen |
発行日 | 2025-05-27 17:17:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google