要約
視覚言語モデル (VLM) は、視覚情報と言語情報の統合において顕著な可能性を示していますが、そのパフォーマンスは、広範で高品質な画像テキスト トレーニング データの必要性によって制約されることがよくあります。
これらの画像とテキストのペアのキュレーションには時間がかかり、計算コストもかかります。
この課題に対処するために、厳選されたデータや好みの注釈に依存せずに視覚と言語の整合性を強化する新しいフレームワークである SVP (Supervision-free Visual Projection) を導入します。
SVP は、セルフ キャプションと事前トレーニングされたグラウンディング モデルをフィードバック メカニズムとして活用し、VLM 内の潜在的な情報を引き出します。
私たちは、キャプション、参照、視覚的質問応答、マルチタスク、幻覚制御、およびオブジェクト想起という 6 つの主要な領域にわたってアプローチを評価します。
結果は、キャプションタスクの平均 14% の改善、物体の想起の最大 12% の増加、幻覚率の大幅な減少など、大幅な改善を示しています。
特に、SVP を使用した小型 VLM は 5 倍大きいモデルに匹敵する幻覚の減少を達成しますが、最初は参照機能が不十分だった VLM のパフォーマンスは 2 倍以上になり、サイズが 2 倍のモデルと同等に近づきます。
要約(オリジナル)
Vision-language models (VLMs) have demonstrated remarkable potential in integrating visual and linguistic information, but their performance is often constrained by the need for extensive, high-quality image-text training data. Curation of these image-text pairs is both time-consuming and computationally expensive. To address this challenge, we introduce SVP (Supervision-free Visual Projection), a novel framework that enhances vision-language alignment without relying on curated data or preference annotation. SVP leverages self-captioning and a pre-trained grounding model as a feedback mechanism to elicit latent information in VLMs. We evaluate our approach across six key areas: captioning, referring, visual question answering, multitasking, hallucination control, and object recall. Results demonstrate significant improvements, including a 14% average improvement in captioning tasks, up to 12% increase in object recall, and substantial reduction in hallucination rates. Notably, a small VLM using SVP achieves hallucination reductions comparable to a model five times larger, while a VLM with initially poor referring capabilities more than doubles its performance, approaching parity with a model twice its size.
arxiv情報
著者 | Giorgio Giannone,Ruoteng Li,Qianli Feng,Evgeny Perevodchikov,Rui Chen,Aleix Martinez |
発行日 | 2025-01-08 15:32:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google