Does VLM Classification Benefit from LLM Description Semantics?

要約

画像をテキストで正確に説明することは、説明可能な AI の基礎です。
CLIP のような視覚言語モデル (VLM) は最近、画像とテキストを共有埋め込み空間に配置し、視覚と言語の埋め込み間の意味論的な類似性を表現することでこの問題に対処しました。
VLM 分類は、Large Language Model (LLM) によって生成された記述を使用して改善できます。
ただし、パフォーマンスの向上はセマンティックに依存しないアンサンブル効果からも生じる可能性があるため、実際の記述セマンティクスの寄与を判断することは困難です。
これを考慮して、説明の実際の識別力と、潜在的にアンサンブル効果に依存するパフォーマンス向上を区別する方法を尋ねます。
これを研究するために、使用された記述に識別力がある場合に特徴的な動作を示す別の評価シナリオを提案します。
さらに、クラス名のアンサンブル効果とは独立して機能する識別記述を選択するためのトレーニング不要の方法を提案します。
トレーニング不要の方法は次のように機能します。テスト画像にはローカル CLIP ラベル近傍、つまり、top-$k$ ラベル予測があります。
それから、まあ、
小さな選択セットに対して、ローカル近傍の各クラスをよく区別する記述を抽出します。
選択した説明を使用して、7 つのデータセットにわたる分類精度の向上を実証し、VLM による説明ベースの画像分類の説明可能性についての詳細な分析と洞察を提供します。

要約(オリジナル)

Accurately describing images via text is a foundation of explainable AI. Vision-Language Models (VLMs) like CLIP have recently addressed this by aligning images and texts in a shared embedding space, expressing semantic similarities between vision and language embeddings. VLM classification can be improved with descriptions generated by Large Language Models (LLMs). However, it is difficult to determine the contribution of actual description semantics, as the performance gain may also stem from a semantic-agnostic ensembling effect. Considering this, we ask how to distinguish the actual discriminative power of descriptions from performance boosts that potentially rely on an ensembling effect. To study this, we propose an alternative evaluation scenario that shows a characteristic behavior if the used descriptions have discriminative power. Furthermore, we propose a training-free method to select discriminative descriptions that work independently of classname ensembling effects. The training-free method works in the following way: A test image has a local CLIP label neighborhood, i.e., its top-$k$ label predictions. Then, w.r.t. to a small selection set, we extract descriptions that distinguish each class well in the local neighborhood. Using the selected descriptions, we demonstrate improved classification accuracy across seven datasets and provide in-depth analysis and insights into the explainability of description-based image classification by VLMs.

arxiv情報

著者 Pingchuan Ma,Lennart Rietdorf,Dmytro Kotovenko,Vincent Tao Hu,Björn Ommer
発行日 2024-12-16 16:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク