要約
Contrastive Language-Image Pre-training (CLIP) は、ドメインやモダリティを超えてオープンワールド表現を抽象化することに優れており、さまざまなビジョンやマルチモーダルなタスクの基盤となっています。
しかし、最近の研究では、CLIP には方向、量、色、構造などをほとんど区別できないなど、視覚的に重大な欠点があることが明らかになりました。これらの視覚的欠点は、CLIP 上に構築されたマルチモーダル大規模言語モデル (MLLM) の認識能力も制限します。
主な理由は、テキストの独自性の欠如と画像の多様性により、CLIP のトレーニングに使用される画像とテキストのペアが本質的に偏っていることである可能性があります。
この研究では、自己教師あり拡散プロセスによって視覚的な欠点を大幅に克服する、CLIP モデルのシンプルなポストトレーニング アプローチを紹介します。
CLIP のビジュアル アシスタントとして DIffusion モデルを使用する DIVA を紹介します。
具体的には、DIVA はテキストから画像への拡散モデルからの生成フィードバックを利用して、画像のみ (対応するテキストなし) で CLIP 表現を最適化します。
我々は、DIVA が、きめ細かい視覚能力を大幅に評価する難しい MMVP-VLM ベンチマークでの CLIP のパフォーマンスを向上させ(たとえば、3 ~ 7%)、マルチモーダルな理解とセグメンテーションのタスクで MLLM とビジョン モデルのパフォーマンスを向上させることを実証します。
29 の画像分類および検索ベンチマークに関する広範な評価により、当社のフレームワークが CLIP の強力なゼロショット機能を維持していることが確認されました。
コードは https://github.com/baaivision/DIVA で入手できます。
要約(オリジナル)
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting open-world representations across domains and modalities, has become a foundation for a variety of vision and multimodal tasks. However, recent studies reveal that CLIP has severe visual shortcomings, such as which can hardly distinguish orientation, quantity, color, structure, etc. These visual shortcomings also limit the perception capabilities of multimodal large language models (MLLMs) built on CLIP. The main reason could be that the image-text pairs used to train CLIP are inherently biased, due to the lack of the distinctiveness of the text and the diversity of images. In this work, we present a simple post-training approach for CLIP models, which largely overcomes its visual shortcomings via a self-supervised diffusion process. We introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP. Specifically, DIVA leverages generative feedback from text-to-image diffusion models to optimize CLIP representations, with only images (without corresponding text). We demonstrate that DIVA improves CLIP’s performance on the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and vision models on multimodal understanding and segmentation tasks. Extensive evaluation on 29 image classification and retrieval benchmarks confirms that our framework preserves CLIP’s strong zero-shot capabilities. The code will be available at https://github.com/baaivision/DIVA.
arxiv情報
著者 | Wenxuan Wang,Quan Sun,Fan Zhang,Yepeng Tang,Jing Liu,Xinlong Wang |
発行日 | 2024-07-29 17:00:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google