要約
タイトル: CLIP のオープン性に深入り
要約:
– CLIPは,画像分類を画像から一致する自然言語記述にマッチングするタスクとして定式化する。
– これにより、モデルはオープンクラスセットから(別名オープンボキャブラリーとも呼ばれる)ゼロショットで認識できるようになり、オープンボキャブラリービジュアル認識が可能になる。
– CLIPのオープン性を評価することは困難であるため、単語彙の拡張を通じてオープン性を評価するための増強性を定義することで対処している。
– しかし、CLIPライクなモデルは理論上は任意の語彙に対応できるが、実際の精度は異なるため、オープン性を評価することは困難である。
– CLIP-likeなモデルは本当にオープンではなく、語彙が拡張されるにつれてパフォーマンスが低下することがわかった。
– CLIPの特徴空間を表現アラインメントと均一性の観点から分解することで、オープン性の過大評価は、競合するテキスト特徴の混乱によるものであり、新しいクラスの画像特徴とテキスト特徴の類似性を捉えることの失敗ではないことを明らかにしている。
– CLIPのオープン性に関する今後の研究を促進することを望んでいる。
要約(オリジナル)
Contrastive Language-Image Pre-training (CLIP) formulates image classification as an image-to-text matching task, i.e., matching images to the corresponding natural language descriptions instead of discrete category IDs. This allows for open-vocabulary visual recognition, where the model can recognize images from an open class set (also known as an open vocabulary) in a zero-shot manner. However, evaluating the openness of CLIP-like models is challenging, as the models are open to arbitrary vocabulary in theory, but their accuracy varies in practice. To address this, we resort to an incremental perspective to assess the openness through vocabulary expansions, and define extensibility to measure a model’s ability to handle novel classes. Our evaluation shows that CLIP-like models are not truly open, and their performance deteriorates as the vocabulary expands. We further dissect the feature space of CLIP from the perspectives of representation alignment and uniformity. Our investigation reveals that the overestimation of openness is due to confusion among competing text features, rather than a failure to capture the similarity between image features and text features of novel classes. We hope that our investigation and analysis will facilitate future research on the CLIP openness issue.
arxiv情報
| 著者 | Shuhuai Ren,Lei Li,Xuancheng Ren,Guangxiang Zhao,Xu Sun | 
| 発行日 | 2023-05-07 15:04:28+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
