Follow-Up Differential Descriptions: Language Models Resolve Ambiguities for Image Classification

要約

画像分類用の CLIP などの視覚言語モデルのパフォーマンスを向上させるための有望なアプローチは、関連する属性を使用してクラスの説明 (つまり、プロンプト) を拡張することです (たとえば、スズメの代わりにブラウン スズメを使用する)。
ただし、現在のゼロショット メソッドは、ターゲット クラス間の共通点に関係なく属性のサブセットを選択するため、それらを区別するのに役立つ有用な情報が提供されない可能性があります。
たとえば、どちらも茶色であるスズメとミソサザイを区別するために、くちばしの形の代わりに色を使用する場合があります。
私たちは、クラス記述を各データセットに合わせて調整し、ターゲット クラスをより適切に区別する追加の属性につながるゼロショット アプローチであるフォローアップ差分記述 (FuDD) を提案します。
FuDD はまず各画像のあいまいなクラスを識別し、次に大規模言語モデル (LLM) を使用してそれらを区別する新しいクラスの説明を生成します。
新しいクラスの説明は、最初のあいまいさを解決し、正しいラベルを予測するのに役立ちます。
私たちの実験では、FuDD は 12 のデータセットで一般的な記述アンサンブルや単純な LLM で生成された記述よりも一貫して優れたパフォーマンスを示しました。
差分記述がクラスの曖昧さを解決する効果的なツールであることを示します。そうしないとパフォーマンスが大幅に低下します。
また、FuDD によって生成された高品質の自然言語クラス記述が、少数ショット適応手法と同等のパフォーマンスをもたらすことも示します。

要約(オリジナル)

A promising approach for improving the performance of vision-language models like CLIP for image classification is to extend the class descriptions (i.e., prompts) with related attributes, e.g., using brown sparrow instead of sparrow. However, current zero-shot methods select a subset of attributes regardless of commonalities between the target classes, potentially providing no useful information that would have helped to distinguish between them. For instance, they may use color instead of bill shape to distinguish between sparrows and wrens, which are both brown. We propose Follow-up Differential Descriptions (FuDD), a zero-shot approach that tailors the class descriptions to each dataset and leads to additional attributes that better differentiate the target classes. FuDD first identifies the ambiguous classes for each image, and then uses a Large Language Model (LLM) to generate new class descriptions that differentiate between them. The new class descriptions resolve the initial ambiguity and help predict the correct label. In our experiments, FuDD consistently outperforms generic description ensembles and naive LLM-generated descriptions on 12 datasets. We show that differential descriptions are an effective tool to resolve class ambiguities, which otherwise significantly degrade the performance. We also show that high quality natural language class descriptions produced by FuDD result in comparable performance to few-shot adaptation methods.

arxiv情報

著者 Reza Esfandiarpoor,Stephen H. Bach
発行日 2024-03-15 08:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク