Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、さまざまなタスクにわたって有望な進歩を示していますが、依然として重大な信頼性の問題に直面しています。
以前の研究では、言語モデリングに分割共形予測 (SCP) を適用して、統計的保証のある予測セットを構築しました。
ただし、これらの方法は通常、内部モデルのロジットに依存するか、複数選択の設定に制限されるため、動的で制限のない環境での汎用性と適応性が妨げられます。
このペーパーでは、オープンエンドとクローズドエンドの両方のシナリオでサンプリングをサポートするあらゆる MLLM に適用できる、リスク管理と評価のための 2 段階のフレームワークである TRON を紹介します。
TRON は 2 つの主なコンポーネントで構成されます: (1) 最小サイズの応答セットをサンプルする新しい等角スコア、および (2) 自己無撞着理論に基づいて高品質の応答を特定し、2 つの特定のリスク レベルでエラー率を制御する不適合スコア

さらに、オープンエンドのコンテキスト内の予測セットの意味的冗長性を初めて調査し、平均セットサイズに基づく MLLM の有望な評価指標につながります。
8 つの MLLM を利用した 4 つのビデオ質問応答 (VideoQA) データセットにわたる包括的な実験により、TRON はユーザーが指定した 2 つのリスク レベルの範囲内で望ましいエラー率を達成できることがわかりました。
さらに、重複排除された予測セットは適応性を維持しながら、さまざまなリスク レベルでのリスク評価の効率と安定性を高めます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) exhibit promising advancements across various tasks, yet they still encounter significant trustworthiness issues. Prior studies apply Split Conformal Prediction (SCP) in language modeling to construct prediction sets with statistical guarantees. However, these methods typically rely on internal model logits or are restricted to multiple-choice settings, which hampers their generalizability and adaptability in dynamic, open-ended environments. In this paper, we introduce TRON, a two-step framework for risk control and assessment, applicable to any MLLM that supports sampling in both open-ended and closed-ended scenarios. TRON comprises two main components: (1) a novel conformal score to sample response sets of minimum size, and (2) a nonconformity score to identify high-quality responses based on self-consistency theory, controlling the error rates by two specific risk levels. Furthermore, we investigate semantic redundancy in prediction sets within open-ended contexts for the first time, leading to a promising evaluation metric for MLLMs based on average set size. Our comprehensive experiments across four Video Question-Answering (VideoQA) datasets utilizing eight MLLMs show that TRON achieves desired error rates bounded by two user-specified risk levels. Additionally, deduplicated prediction sets maintain adaptiveness while being more efficient and stable for risk assessment under different risk levels.

arxiv情報

著者 Qingni Wang,Tiantian Geng,Zhiyuan Wang,Teng Wang,Bo Fu,Feng Zheng
発行日 2024-10-10 17:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM パーマリンク