Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

要約

分散除外検出に関する以前の研究(OODD)は、主に単一モダリティモデルに焦点を当てています。
最近、Clip、OODDメソッドなどの大規模な事前に守られたビジョン言語モデルの出現により、ゼロショットと迅速な学習戦略を通じてこのようなマルチモーダル表現を利用しています。
ただし、これらの方法には通常、前提条件の重みを凍結するか、部分的にのみ調整します。これは、下流のデータセットの最適ではありません。
この論文では、マルチモーダル微調整(MMFT)が注目すべきOODDパフォーマンスを達成できることを強調しています。
OODDの微調整方法の影響を実証しているいくつかの最近の作品にもかかわらず、パフォーマンスの改善には大きな可能性が残っています。
na \ ‘ive微調整方法の制限を調査し、なぜ彼らが前提条件の知識を完全に活用しなかったのかを調べます。
私たちの経験的分析は、この問題が分配内の(ID)埋め込み内のモダリティギャップに起因する可能性があることを示唆しています。
これに対処するために、IDデータの画像とテキストの埋め込みの距離を正規化することにより、クロスモーダルアライメントを強化するトレーニング目標を提案します。
この調整は、異なるモダリティ(つまり、テキストと画像)からの同様のセマンティクスを、拡散表現空間でより密接に整列させることにより、事前に守られたテキスト情報をよりよく利用するのに役立ちます。
提案された正則化は、極球上のエネルギーベースのモデルの最尤推定に対応することを理論的に実証します。
ImagENET-1K OODベンチマークデータセットを利用して、私たちの方法は、事前に抑制された知識を活用する事後のOODDアプローチと組み合わされており、既存の方法を大幅に上回り、最先端のOODDパフォーマンスと主要なID精度を達成します。

要約(オリジナル)

Prior research on out-of-distribution detection (OoDD) has primarily focused on single-modality models. Recently, with the advent of large-scale pretrained vision-language models such as CLIP, OoDD methods utilizing such multi-modal representations through zero-shot and prompt learning strategies have emerged. However, these methods typically involve either freezing the pretrained weights or only partially tuning them, which can be suboptimal for downstream datasets. In this paper, we highlight that multi-modal fine-tuning (MMFT) can achieve notable OoDD performance. Despite some recent works demonstrating the impact of fine-tuning methods for OoDD, there remains significant potential for performance improvement. We investigate the limitation of na\’ive fine-tuning methods, examining why they fail to fully leverage the pretrained knowledge. Our empirical analysis suggests that this issue could stem from the modality gap within in-distribution (ID) embeddings. To address this, we propose a training objective that enhances cross-modal alignment by regularizing the distances between image and text embeddings of ID data. This adjustment helps in better utilizing pretrained textual information by aligning similar semantics from different modalities (i.e., text and image) more closely in the hyperspherical representation space. We theoretically demonstrate that the proposed regularization corresponds to the maximum likelihood estimation of an energy-based model on a hypersphere. Utilizing ImageNet-1k OoD benchmark datasets, we show that our method, combined with post-hoc OoDD approaches leveraging pretrained knowledge (e.g., NegLabel), significantly outperforms existing methods, achieving state-of-the-art OoDD performance and leading ID accuracy.

arxiv情報

著者 Jeonghyeon Kim,Sangheum Hwang
発行日 2025-03-24 16:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク