Task Bias in Vision-Language Models

要約

言語からの偶発的な監督は、コンピューター ビジョンで多くの認識タスクを実行するように促すことができる一般的な視覚的表現を学習するための一般的なアプローチになりました。
CLIPモデルの詳細な調査を実施し、その視覚的表現がしばしば他のものよりもいくつかのタスクを解決することに強く偏っていることを示しています.
さらに、表現がどのタスクに偏っているかは予測できず、画像間でほとんど一貫性がありません。
このタスク バイアスを解決するために、関心のあるタスクに関連する機能に向けて表現を導く視覚的なプロンプトを学習する方法を示します。
私たちの結果は、これらの視覚的プロンプトが入力画像から独立している可能性があり、それでも視覚的表現を目的のタスクに向けるための調整メカニズムを効果的に提供することを示しています。

要約(オリジナル)

Incidental supervision from language has become a popular approach for learning generic visual representations that can be prompted to perform many recognition tasks in computer vision. We conduct an in-depth exploration of the CLIP model and show that its visual representation is often strongly biased towards solving some tasks more than others. Moreover, which task the representation will be biased towards is unpredictable, with little consistency across images. To resolve this task bias, we show how to learn a visual prompt that guides the representation towards features relevant to their task of interest. Our results show that these visual prompts can be independent of the input image and still effectively provide a conditioning mechanism to steer visual representations towards the desired task.

arxiv情報

著者 Sachit Menon,Ishaan Preetam Chandratreya,Carl Vondrick
発行日 2022-12-08 17:10:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク