LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions

要約

ビジョン言語モデル (VLM) は、画像とクラスの埋め込み間の類似性を比較することにより、画像分類のための有望なパラダイムを提供します。
重要な課題は、クラス名の正確なテキスト表現を作成することにあります。
これまでの研究では、大規模言語モデル (LLM) の最近の進歩を利用してこれらの記述子を強化してきましたが、その出力には曖昧さと不正確さが伴うことがよくあります。
私たちは主な原因を 2 つ特定します。 1) LLM とのテキスト対話への一般的な依存により、生成されたテキストと VLM の潜在空間内の視覚コンテンツとの間に不一致が生じます。この現象を「見ずに説明する」ジレンマと呼んでいます。
2) クラス間の関係を見落とし、その結果、類似したクラスを効果的に区別できない記述子が生成されます。
これらの問題に対処するために、我々は、VLM と LLM を組み合わせた、視覚的フィードバックによる反復最適化という名前の新しい画像分類フレームワークを提案します。
特に、私たちの方法では、進化的最適化戦略を採用してクラス記述子を改良し、LLM ベースのエージェントを開発します。
重要なのは、VLM 分類メトリクスからの視覚的なフィードバックを組み込んでおり、それによって具体的な視覚データを使用して最適化プロセスをガイドします。
私たちの手法は、広範囲の画像分類ベンチマークで精度の向上につながり、最先端の手法と比較して平均 3.47% 向上しました。
また、結果として得られる記述が、さまざまなバックボーン モデルにわたってパフォーマンスを一貫して向上させることができる、説明可能で堅牢な機能として機能することも強調します。

要約(オリジナル)

Vision-language models (VLMs) offer a promising paradigm for image classification by comparing the similarity between images and class embeddings. A critical challenge lies in crafting precise textual representations for class names. While previous studies have leveraged recent advancements in large language models (LLMs) to enhance these descriptors, their outputs often suffer from ambiguity and inaccuracy. We identify two primary causes: 1) The prevalent reliance on textual interactions with LLMs, leading to a mismatch between the generated text and the visual content in VLMs’ latent space – a phenomenon we term the ‘explain without seeing’ dilemma. 2) The oversight of the inter-class relationships, resulting in descriptors that fail to differentiate similar classes effectively. To address these issues, we propose a novel image classification framework combining VLMs with LLMs, named Iterative Optimization with Visual Feedback. In particular, our method develops an LLM-based agent, employing an evolutionary optimization strategy to refine class descriptors. Crucially, we incorporate visual feedback from VLM classification metrics, thereby guiding the optimization process with concrete visual data. Our method leads to improving accuracy on a wide range of image classification benchmarks, with 3.47\% average gains over state-of-the-art methods. We also highlight the resulting descriptions serve as explainable and robust features that can consistently improve the performance across various backbone models.

arxiv情報

著者 Songhao Han,Le Zhuo,Yue Liao,Si Liu
発行日 2023-11-20 16:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク