PARIC: Probabilistic Attention Regularization for Language Guided Image Classification from Pre-trained Vison Language Models

要約

言語誘導の注意フレームワークは、画像分類における解釈可能性とパフォーマンスの両方を大幅に向上させました。
ただし、参照注意マップを生成するための事前に訓練されたビジョン言語基礎モデルからの決定論的な埋め込みへの依存は、頻繁に本質的な多次元とクロスモーダルマッピングの不適切な特性を見落とします。
これらの制限に対処するために、言語仕様を介して視覚的な注意を導くための確率的フレームワークであるパリックを紹介します。
当社のアプローチにより、事前に訓練されたビジョン言語モデルが確率的参照注意マップを生成することができます。これは、決定論的なカウンターパートと比較して、不確実性の推定値を組み込んでいる間、テキストおよび視覚モダリティをより効果的に調整します。
ベンチマークテストの問題に関する実験は、パリックが予測の精度を高め、バイアスを緩和し、一貫した予測を保証し、さまざまなデータセット全体で堅牢性を向上させることを示しています。

要約(オリジナル)

Language-guided attention frameworks have significantly enhanced both interpretability and performance in image classification; however, the reliance on deterministic embeddings from pre-trained vision-language foundation models to generate reference attention maps frequently overlooks the intrinsic multivaluedness and ill-posed characteristics of cross-modal mappings. To address these limitations, we introduce PARIC, a probabilistic framework for guiding visual attention via language specifications. Our approach enables pre-trained vision-language models to generate probabilistic reference attention maps, which align textual and visual modalities more effectively while incorporating uncertainty estimates, as compared to their deterministic counterparts. Experiments on benchmark test problems demonstrate that PARIC enhances prediction accuracy, mitigates bias, ensures consistent predictions, and improves robustness across various datasets.

arxiv情報

著者 Mayank Nautiyal,Stela Arranz Gheorghe,Kristiana Stefa,Li Ju,Ida-Maria Sintorn,Prashant Singh
発行日 2025-03-14 12:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク