Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation

要約

不確実性の推定は、一般的に調整が不十分で自信過剰な現在の大規模言語モデル (LLM) にとって、特にヒューマン フィードバックからの強化学習 (RLHF) では重大な問題です。
人間の決定や自信は、本質的な信念から生じるだけでなく、日々の観察によって調整することもできるのですが、LLM の既存の校正方法は、「集合知」、つまり複数の LLM 間の相互作用を最大限に活用することなく、個人の信頼を推定または引き出すことに焦点を当てています。
これにより、精度と校正の両方を総合的に向上させることができます。
この研究では、シミュレートされたグループ審議プロセスにおいて複数のツールで強化された LLM エージェントの協調的および表現力を活用する、ポストホック トレーニング不要の調整戦略である共同キャリブレーションを提案します。
私たちは、さまざまなドメインにわたる生成的な QA タスクに対する共同キャリブレーションの有効性を実証し、集合的にキャリブレーションされた信頼性評価の合理化を活用し、モデル予測の信頼性を向上させる可能性を示します。

要約(オリジナル)

Uncertainty estimation is a significant issue for current large language models (LLMs) that are generally poorly calibrated and over-confident, especially with reinforcement learning from human feedback (RLHF). Unlike humans, whose decisions and confidences not only stem from intrinsic beliefs but can also be adjusted through daily observations, existing calibration methods for LLMs focus on estimating or eliciting individual confidence without taking full advantage of the ‘Collective Wisdom’: the interaction among multiple LLMs that can collectively improve both accuracy and calibration. In this work, we propose Collaborative Calibration, a post-hoc training-free calibration strategy that leverages the collaborative and expressive capabilities of multiple tool-augmented LLM agents in a simulated group deliberation process. We demonstrate the effectiveness of Collaborative Calibration on generative QA tasks across various domains, showing its potential in harnessing the rationalization of collectively calibrated confidence assessments and improving the reliability of model predictions.

arxiv情報

著者 Ruixin Yang,Dheeraj Rajagopal,Shirley Anugrah Hayati,Bin Hu,Dongyeop Kang
発行日 2024-05-10 16:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク