要約
大規模な言語モデル(LLM)は、しばしば不一致の信頼スコアを示し、通常、予測の信頼性を過大評価します。
大規模な言語モデル(LLMS)に対する口頭化された信頼性は注目を集めていますが、プロンプトを通じて信頼スコアを体系的に操縦できるかどうかについて、以前の作業が分割されたままです。
最近の研究では、このような迅速な誘発性信頼シフトは無視できるとさえ主張しており、LLMSの信頼校正は言語介入にとって厳格であることを示唆しています。
これらの主張に反して、最初に7つのベンチマーク全体で3つのモデル(GPT3.5、Llama3-70B、GPT4、GPT4を含む)を調査することにより、方向信頼シフトの存在を厳密に確認し、明示的な命令が調整された方法で信頼スコアを膨らませるか、排除できることを示しています。
この観察に基づいて、3つのコンポーネントを含む新しいフレームワークを提案します:信頼ステアリング、ステアリングされた自信の集約、SteeringConfという名前の操縦回答の選択。
私たちの方法であるSteeringConfは、信頼操作メカニズムを活用して、LLMの信頼性スコアをいくつかの望ましい方向に導き、その後、操縦された信頼スコアを集約して最終的な予測を生成する要約モジュールが続きます。
7つのベンチマークでメソッドを評価すると、信頼性のキャリブレーションと障害検出のタスクにおけるキャリブレーションメトリックの観点から、ベースラインを一貫して上回ります。
要約(オリジナル)
Large Language Models (LLMs) often exhibit misaligned confidence scores, usually overestimating the reliability of their predictions. While verbalized confidence in Large Language Models (LLMs) has gained attention, prior work remains divided on whether confidence scores can be systematically steered through prompting. Recent studies even argue that such prompt-induced confidence shifts are negligible, suggesting LLMs’ confidence calibration is rigid to linguistic interventions. Contrary to these claims, we first rigorously confirm the existence of directional confidence shifts by probing three models (including GPT3.5, LLAMA3-70b, GPT4) across 7 benchmarks, demonstrating that explicit instructions can inflate or deflate confidence scores in a regulated manner. Based on this observation, we propose a novel framework containing three components: confidence steering, steered confidence aggregation and steered answers selection, named SteeringConf. Our method, SteeringConf, leverages a confidence manipulation mechanism to steer the confidence scores of LLMs in several desired directions, followed by a summarization module that aggregates the steered confidence scores to produce a final prediction. We evaluate our method on 7 benchmarks and it consistently outperforms the baselines in terms of calibration metrics in task of confidence calibration and failure detection.
arxiv情報
著者 | Ziang Zhou,Tianyuan Jin,Jieming Shi,Qing Li |
発行日 | 2025-03-04 18:40:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google