要約
共同視覚言語モデルは、さまざまなタスクに対して優れたパフォーマンスを示しています。
ただし、これらのモデルによって学習される高次元空間では意味論的なエラーを特定することが困難であるため、その制限についてはほとんど知られていません。
最近の研究では、高度に制御されたプローブ タスクのベンチマークを設計することで、この問題に対処しています。
私たちの論文では、すでに注釈が付けられているベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
私たちの方法は、視覚言語ベンチマークから多様な特徴の大規模なセットを抽出し、それらとターゲット モデルの出力との相関を測定することで構成されます。
CLIP はバッグ オブ ワード モデルのように動作し、名詞や動詞に対してより適切に機能するという以前の調査結果を確認します。
また、CLIP が具体的な単語に混乱するなど、新しい洞察も明らかになります。
私たちのフレームワークは https://github.com/MichiganNLP/Scalable-VLM-Probing で入手でき、他のマルチモーダル モデルやベンチマークとともに使用できます。
要約(オリジナル)
Joint vision-language models have shown great performance over a diverse set of tasks. However, little is known about their limitations, as the high dimensional space learned by these models makes it difficult to identify semantic errors. Recent work has addressed this problem by designing highly controlled probing task benchmarks. Our paper introduces a more scalable solution that relies on already annotated benchmarks. Our method consists of extracting a large set of diverse features from a vision-language benchmark and measuring their correlation with the output of the target model. We confirm previous findings that CLIP behaves like a bag of words model and performs better with nouns and verbs; we also uncover novel insights such as CLIP getting confused by concrete words. Our framework is available at https://github.com/MichiganNLP/Scalable-VLM-Probing and can be used with other multimodal models and benchmarks.
arxiv情報
著者 | Santiago Castro,Oana Ignat,Rada Mihalcea |
発行日 | 2023-05-31 17:55:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google