Waffling around for Performance: Visual Classification with Random Words and Broad Concepts

要約

CLIP などの視覚言語モデルの視覚分類パフォーマンスは、追加の意味論的な知識から恩恵を受けることができます。
GPT-3 などの大規模言語モデル (LLM) 経由。
LLM で生成されたクラス記述子を使用してクラス名をさらに拡張します。
「waffle, \textit{丸い形をしている}」、つまり複数のそのような記述子の検索スコアを平均すると、汎化パフォーマンスが向上することが示されています。
この研究では、この動作を詳細に研究し、LLM で生成された記述子をランダムな文字に置き換えるだけで、多数の視覚分類タスクで同様のパフォーマンス向上を達成するゼロショット視覚分類のフレームワーク \texttt{Waffle}CLIP を提案します。
外部モデルをクエリする \textbf{なし}の単語記述子。
これらの結果を、LLM で生成された記述子を介して導入された追加のセマンティクスの影響と欠点に関する広範な実験研究で拡張し、潜在的なクラス名の曖昧さを共同で解決しながら、高レベルの概念について LLM に自動的にクエリを実行することで、セマンティクス コンテキストをより適切に活用する方法を紹介します。
コードベースへのリンク: https://github.com/ExplainableML/WaffleCLIP。

要約(オリジナル)

The visual classification performance of vision-language models such as CLIP can benefit from additional semantic knowledge, e.g. via large language models (LLMs) such as GPT-3. Further extending classnames with LLM-generated class descriptors, e.g. “waffle, \textit{which has a round shape}”, or averaging retrieval scores over multiple such descriptors, has been shown to improve generalization performance. In this work, we study this behavior in detail and propose \texttt{Waffle}CLIP, a framework for zero-shot visual classification which achieves similar performance gains on a large number of visual classification tasks by simply replacing LLM-generated descriptors with random character and word descriptors \textbf{without} querying external models. We extend these results with an extensive experimental study on the impact and shortcomings of additional semantics introduced via LLM-generated descriptors, and showcase how semantic context is better leveraged by automatically querying LLMs for high-level concepts, while jointly resolving potential class name ambiguities. Link to the codebase: https://github.com/ExplainableML/WaffleCLIP.

arxiv情報

著者 Karsten Roth,Jae Myung Kim,A. Sophia Koepke,Oriol Vinyals,Cordelia Schmid,Zeynep Akata
発行日 2023-06-12 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク