Rethinking the Openness of CLIP

要約

対照的な言語-画像事前トレーニング(CLIP)は、制約のない現実世界の視覚的概念をカバーする自然言語監視を総合的に使用するため、マッチングスタイルでオープンボキャブラリー画像分類を実現する大きな可能性を示しています。
ただし、CLIPのようなモデルは理論的にはどの語彙にもオープンであるが、実際の精度は異なるため、CLIPのようなモデルのオープン性を評価および分析することも困難です。
オープン性に関する従来の研究の不十分さに対処するために、インクリメンタルビューに頼り、語彙の拡張を通じてオープン性を評価することにより、新しい視覚的概念を処理するモデルの能力を本質的に近似する拡張性を定義します。
拡張性に基づく私たちの評価は、CLIPのようなモデルが真にオープンであるとは言えず、語彙がさまざまな程度に拡大するにつれてパフォーマンスが低下することを示しています。
さらなる分析により、開放性の過大評価は、CLIPのようなモデルが新しい視覚的概念の画像とテキストの特徴の一般的な類似性を捉えることができないためではなく、競合するテキストの特徴間の混乱のため、つまり安定していないことが明らかになりました
語彙に関して。
これに照らして、テキスト特徴の識別可能性を強化することにより、特徴空間の観点からCLIPの開放性を改善することを提案します。
私たちの方法は、事前トレーニングコーパスから関連するテキストを取得して、推論のプロンプトを強化します。これにより、微調整しなくてもCLIPの拡張性と安定性が向上します。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has demonstrated great potential in realizing open-vocabulary image classification in a matching style, because of its holistic use of natural language supervision that covers unconstrained real-world visual concepts. However, it is, in turn, also difficult to evaluate and analyze the openness of CLIP-like models, since they are in theory open to any vocabulary but the actual accuracy varies. To address the insufficiency of conventional studies on openness, we resort to an incremental view and define the extensibility, which essentially approximates the model’s ability to deal with new visual concepts, by evaluating openness through vocabulary expansions. Our evaluation based on extensibility shows that CLIP-like models are hardly truly open and their performances degrade as the vocabulary expands to different degrees. Further analysis reveals that the over-estimation of openness is not because CLIP-like models fail to capture the general similarity of image and text features of novel visual concepts, but because of the confusion among competing text features, that is, they are not stable with respect to the vocabulary. In light of this, we propose to improve the openness of CLIP from the perspective of feature space by enforcing the distinguishability of text features. Our method retrieves relevant texts from the pre-training corpus to enhance prompts for inference, which boosts the extensibility and stability of CLIP even without fine-tuning.

arxiv情報

著者 Shuhuai Ren,Lei Li,Xuancheng Ren,Guangxiang Zhao,Xu Sun
発行日 2022-06-04 13:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク