Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction

要約

この研究では、スプリットコンフォーマル予測(SCP)フレームワークを介した視覚的質問(VQA)タスクのための大規模な視覚言語モデル(LVLMS)における幻覚緩和の重要な課題に対処します。
LVLMSはマルチモーダルの推論に優れていますが、その出力はしばしば自信を持って幻覚コンテンツを示し、安全性の高いアプリケーションにリスクをもたらします。
動的なしきい値のキャリブレーションとクロスモーダルの一貫性の検証を統合するモデルに依存しない不確実性定量化方法を提案します。
データをキャリブレーションとテストセットに分割することにより、フレームワークは非変性スコアを計算して、ユーザー定義のリスクレベル($ \ alpha $)の下で統計的保証で予測セットを構築します。
主要なイノベーションには次のものが含まれます。(1)経験的エラー率を厳密に$ \ alpha $を下回ることを保証するための\ textBf {限界カバレッジ}の厳密な制御。
(2)$ \ alpha $を使用して、予測セットサイズの動的調整を逆に調整し、低信頼性出力をフィルタリングします。
(3)事前の配布の仮定と再訓練要件の排除。
8つのLVLMSを使用したベンチマーク(ScienceQA、MMMU)の評価は、SCPがすべての$ \ alpha $値にわたって理論的保証を強制することを示しています。
このフレームワークは、さまざまなキャリブレーション間分割比にわたって安定したパフォーマンスを実現し、ヘルスケア、自律システム、およびその他の安全性に敏感なドメインでの実際の展開に対する堅牢性を強調しています。
この作業は、マルチモーダルAIシステムにおける理論的信頼性と実用的な適用性のギャップを埋め、幻覚検出と不確実性を認識する意思決定のためのスケーラブルなソリューションを提供します。

要約(オリジナル)

This study addresses the critical challenge of hallucination mitigation in Large Vision-Language Models (LVLMs) for Visual Question Answering (VQA) tasks through a Split Conformal Prediction (SCP) framework. While LVLMs excel in multi-modal reasoning, their outputs often exhibit hallucinated content with high confidence, posing risks in safety-critical applications. We propose a model-agnostic uncertainty quantification method that integrates dynamic threshold calibration and cross-modal consistency verification. By partitioning data into calibration and test sets, the framework computes nonconformity scores to construct prediction sets with statistical guarantees under user-defined risk levels ($\alpha$). Key innovations include: (1) rigorous control of \textbf{marginal coverage} to ensure empirical error rates remain strictly below $\alpha$; (2) dynamic adjustment of prediction set sizes inversely with $\alpha$, filtering low-confidence outputs; (3) elimination of prior distribution assumptions and retraining requirements. Evaluations on benchmarks (ScienceQA, MMMU) with eight LVLMs demonstrate that SCP enforces theoretical guarantees across all $\alpha$ values. The framework achieves stable performance across varying calibration-to-test split ratios, underscoring its robustness for real-world deployment in healthcare, autonomous systems, and other safety-sensitive domains. This work bridges the gap between theoretical reliability and practical applicability in multi-modal AI systems, offering a scalable solution for hallucination detection and uncertainty-aware decision-making.

arxiv情報

著者 Yuanchang Ye,Weiyan Wen
発行日 2025-04-24 15:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク