要約
CLIP (Contrastive Language-Image Pre-training) は、ノイズ画像とテキストのペアからの対照学習を使用して、幅広い候補の認識に優れていますが、広範な関連性に焦点を当てているため、粒度の細かいアイテム間の微妙な違いを正確に区別することが妨げられます。
逆に、マルチモーダル大規模言語モデル (MLLM) は、Web レベルのコーパスでの事前トレーニングからの豊富な知識のおかげで、きめの細かいカテゴリの分類に優れています。
ただし、MLLM のパフォーマンスは、主に複雑さの増大と限られたコンテキスト ウィンドウ サイズの制約により、カテゴリ数の増加とともに低下します。
両方のアプローチの長所を相乗して、広範囲かつきめ細かい語彙を特徴とするデータセットの少数ショット/ゼロショット認識能力を強化するために、このホワイトペーパーでは、MLLM 用の取得およびランキング拡張手法である RAR を紹介します。
最初に、CLIP に基づいてマルチモーダル リトリーバーを確立し、直接のコンテキスト ウィンドウを超えてさまざまなカテゴリの明示的なメモリを作成および保存します。
推論中、RAR はメモリから上位 k 個の同様の結果を取得し、MLLM を使用してランク付けして最終的な予測を行います。
私たちが提案するアプローチは、きめ細かい認識に固有の制限に対処するだけでなく、モデルの包括的な知識ベースを維持し、視覚言語認識タスクの範囲全体で精度を大幅に向上させます。
特に、私たちのアプローチは、ゼロショット認識設定の下で、5 つのきめ細かい視覚認識ベンチマーク、11 の少数ショット画像認識データセット、および 2 つの物体検出データセットでパフォーマンスの大幅な向上を示しています。
要約(オリジナル)
CLIP (Contrastive Language-Image Pre-training) uses contrastive learning from noise image-text pairs to excel at recognizing a wide array of candidates, yet its focus on broad associations hinders the precision in distinguishing subtle differences among fine-grained items. Conversely, Multimodal Large Language Models (MLLMs) excel at classifying fine-grained categories, thanks to their substantial knowledge from pre-training on web-level corpora. However, the performance of MLLMs declines with an increase in category numbers, primarily due to growing complexity and constraints of limited context window size. To synergize the strengths of both approaches and enhance the few-shot/zero-shot recognition abilities for datasets characterized by extensive and fine-grained vocabularies, this paper introduces RAR, a Retrieving And Ranking augmented method for MLLMs. We initially establish a multi-modal retriever based on CLIP to create and store explicit memory for different categories beyond the immediate context window. During inference, RAR retrieves the top-k similar results from the memory and uses MLLMs to rank and make the final predictions. Our proposed approach not only addresses the inherent limitations in fine-grained recognition but also preserves the model’s comprehensive knowledge base, significantly boosting accuracy across a range of vision-language recognition tasks. Notably, our approach demonstrates a significant improvement in performance on 5 fine-grained visual recognition benchmarks, 11 few-shot image recognition datasets, and the 2 object detection datasets under the zero-shot recognition setting.
arxiv情報
著者 | Ziyu Liu,Zeyi Sun,Yuhang Zang,Wei Li,Pan Zhang,Xiaoyi Dong,Yuanjun Xiong,Dahua Lin,Jiaqi Wang |
発行日 | 2024-03-20 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google