FastRM: An efficient and automatic explainability framework for multimodal generative models

要約

大規模なビジョン言語モデル(LVLMS)は、テキストおよび視覚入力よりも顕著な推論能力を実証しています。
ただし、これらのモデルは誤った情報を生成する傾向があります。
信頼できるAIを開発するには、接地されていない応答を特定して軽減することが重要です。
グラデーションベースの関連性マップなどの従来の説明可能性方法は、モデルの決定プロセスに関する洞察を提供しますが、多くの場合、リアルタイムの出力検証には計算上の高価で不適切です。
この作業では、LVLMの説明可能な関連性マップを予測するための効率的な方法であるFastrMを紹介します。
さらに、FASTRMは、モデル信頼の定量的評価と定性的評価の両方を提供します。
実験結果は、FASTRMが計算時間の99.8%の短縮を達成し、従来の関連マップ生成と比較してメモリフットプリントが44.4%減少することを示しています。
FASTRMは、説明可能なAIがより実用的でスケーラブルであるため、実際のアプリケーションでの展開を促進し、ユーザーがモデル出力の信頼性をより効果的に評価できるようにします。

要約(オリジナル)

Large Vision Language Models (LVLMs) have demonstrated remarkable reasoning capabilities over textual and visual inputs. However, these models remain prone to generating misinformation. Identifying and mitigating ungrounded responses is crucial for developing trustworthy AI. Traditional explainability methods such as gradient-based relevancy maps, offer insight into the decision process of models, but are often computationally expensive and unsuitable for real-time output validation. In this work, we introduce FastRM, an efficient method for predicting explainable Relevancy Maps of LVLMs. Furthermore, FastRM provides both quantitative and qualitative assessment of model confidence. Experimental results demonstrate that FastRM achieves a 99.8% reduction in computation time and a 44.4% reduction in memory footprint compared to traditional relevancy map generation. FastRM allows explainable AI to be more practical and scalable, thereby promoting its deployment in real-world applications and enabling users to more effectively evaluate the reliability of model outputs.

arxiv情報

著者 Gabriela Ben-Melech Stan,Estelle Aflalo,Man Luo,Shachar Rosenman,Tiep Le,Sayak Paul,Shao-Yen Tseng,Vasudev Lal
発行日 2025-04-01 09:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク