Semantically-Prompted Language Models Improve Visual Descriptions

要約

CLIP のような言語視覚モデルは、ゼロショット画像分類 (ZSIC) などの視覚タスクにおいて大幅な進歩を遂げました。
ただし、具体的で表現力豊かな視覚的な説明を生成することは依然として困難です。
現在の方法で生成される説明は、多くの場合曖昧で粒度が不足しています。
これらの問題に取り組むために、私たちは 2 つの重要なアイデアに基づいて構築された新しい方法である V-GLOSS: Visual Glosses を提案します。
1 つ目はセマンティック プロンプティングで、構造化されたセマンティック知識に基づいて言語モデルを条件付けします。
2 つ目は、類似した概念間のきめ細かい区別を引き出す、新しい対照的なアルゴリズムです。
両方のアイデアにより、V-GLOSS が視覚的な説明を改善し、ImageNet、STL-10、FGVC 航空機、および Flowers 102 を含む一般的で詳細な画像分類データセットのゼロショット設定で優れた結果を達成することを実証します。
これらの記述機能は、画像生成パフォーマンスの向上に貢献します。
最後に、すべての ImageNet クラスに対して V-GLOSS で生成された記述を含む、品質テスト済みのシルバー データセットを紹介します。

要約(オリジナル)

Language-vision models like CLIP have made significant strides in vision tasks, such as zero-shot image classification (ZSIC). However, generating specific and expressive visual descriptions remains challenging; descriptions produced by current methods are often ambiguous and lacking in granularity. To tackle these issues, we propose V-GLOSS: Visual Glosses, a novel method built upon two key ideas. The first is Semantic Prompting, which conditions a language model on structured semantic knowledge. The second is a new contrastive algorithm that elicits fine-grained distinctions between similar concepts. With both ideas, we demonstrate that V-GLOSS improves visual descriptions and achieves strong results in the zero-shot setting on general and fine-grained image-classification datasets, including ImageNet, STL-10, FGVC Aircraft, and Flowers 102. Moreover, these descriptive capabilities contribute to enhancing image-generation performance. Finally, we introduce a quality-tested silver dataset with descriptions generated with V-GLOSS for all ImageNet classes.

arxiv情報

著者 Michael Ogezi,Bradley Hauer,Grzegorz Kondrak
発行日 2024-11-22 15:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク