要約
画像をテキストで正確に記述することは、説明可能な AI の基礎です。
CLIP のような視覚言語モデル (VLM) は最近、画像とテキストを共有埋め込み空間に配置し、視覚と言語の埋め込み間の意味論的な類似性を表現することでこの問題に対処しました。
VLM 分類は、Large Language Model (LLM) によって生成された記述を使用して改善できます。
ただし、実際の記述セマンティクスの寄与を判断することは困難です。パフォーマンスの向上は、複数の変更されたテキスト プロンプトが元のテキスト プロンプトに対するテスト時のノイズの多い拡張として機能する、セマンティクスに依存しないアンサンブル効果からも生じる可能性があるためです。
我々は、LLM で生成された記述のパフォーマンス向上がそのようなノイズ増大効果によって引き起こされるのか、それとも真の記述セマンティクスによって引き起こされるのかを判断するための代替評価シナリオを提案します。
提案されたシナリオは、ノイズの多いテスト時間の増大を回避し、本物の独特の記述によってパフォーマンスが向上することを保証します。
さらに、クラス名アンサンブル効果とは無関係に機能する識別記述を選択するためのトレーニング不要の方法を提案します。
私たちのアプローチは、ローカルの CLIP ラベル近傍内のクラスを効果的に区別する記述を特定し、7 つのデータセットにわたる分類精度を向上させます。
さらに、VLM を使用した記述ベースの画像分類の説明可能性についての洞察も提供します。
要約(オリジナル)
Accurately describing images with text is a foundation of explainable AI. Vision-Language Models (VLMs) like CLIP have recently addressed this by aligning images and texts in a shared embedding space, expressing semantic similarities between vision and language embeddings. VLM classification can be improved with descriptions generated by Large Language Models (LLMs). However, it is difficult to determine the contribution of actual description semantics, as the performance gain may also stem from a semantic-agnostic ensembling effect, where multiple modified text prompts act as a noisy test-time augmentation for the original one. We propose an alternative evaluation scenario to decide if a performance boost of LLM-generated descriptions is caused by such a noise augmentation effect or rather by genuine description semantics. The proposed scenario avoids noisy test-time augmentation and ensures that genuine, distinctive descriptions cause the performance boost. Furthermore, we propose a training-free method for selecting discriminative descriptions that work independently of classname-ensembling effects. Our approach identifies descriptions that effectively differentiate classes within a local CLIP label neighborhood, improving classification accuracy across seven datasets. Additionally, we provide insights into the explainability of description-based image classification with VLMs.
arxiv情報
著者 | Pingchuan Ma,Lennart Rietdorf,Dmytro Kotovenko,Vincent Tao Hu,Björn Ommer |
発行日 | 2024-12-19 17:57:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google