要約
現在の視覚言語モデル (VLM) は、主に視覚オブジェクトとシーンの間のすべての関連付けを、対応するエンティティと背景知識に正確にエンコードするという課題により、知識集約型タスクでは依然としてパフォーマンスが劣っています。
検索拡張手法は外部の知識を統合する効率的な方法を提供しますが、それを視覚言語領域に拡張すると、(1) マルチモーダル クエリ内に固有の不一致があるため、外部ソースから関連情報を正確に取得すること、(2) 回復力があることという点で独特の課題が生じます。
取得されたマルチモーダルな知識の断片に含まれる、無関係で無関係でノイズの多い情報に影響を与えます。
この研究では、VLM 向けに特別に調整された斬新で堅牢な検索拡張フレームワークである RORA-VLM を紹介します。このフレームワークには、次の 2 つの重要な革新があります。 (1) 画像アンカー付きテキストクエリ拡張による 2 段階の検索プロセスにより、視覚的クエリと視覚的クエリを相乗的に組み合わせることができます。
クエリ内のテキスト情報を検索し、最も関連性の高いマルチモーダルなナレッジ スニペットを取得します。
(2) 検索拡張トレーニングプロセスに敵対的なノイズを注入することで、取得されたマルチモーダル知識内の無関係な情報に対する VLM の復元力を強化し、画像内に表示される無関係なエンティティなどの無関係な視覚情報をフィルタリングする、堅牢な検索拡張方法。
クエリ指向の視覚的なトークン改良戦略を介して。
私たちは、広く採用されている 3 つのベンチマーク データセットに対して、提案した手法の有効性と堅牢性を検証するために広範な実験を実施しています。
私たちの結果は、RORA-VLM により、最小限のトレーニング インスタンスで基本モデルのパフォーマンスが大幅に向上し、すべてのベンチマークで常に最新の検索拡張 VLM を上回るパフォーマンスを実現できると同時に、新しいゼロショット ドメインを示していることを示しています。
転送能力。
要約(オリジナル)
Current vision-language models (VLMs) still exhibit inferior performance on knowledge-intensive tasks, primarily due to the challenge of accurately encoding all the associations between visual objects and scenes to their corresponding entities and background knowledge. While retrieval augmentation methods offer an efficient way to integrate external knowledge, extending them to vision-language domain presents unique challenges in (1) precisely retrieving relevant information from external sources due to the inherent discrepancy within the multimodal queries, and (2) being resilient to the irrelevant, extraneous and noisy information contained in the retrieved multimodal knowledge snippets. In this work, we introduce RORA-VLM, a novel and robust retrieval augmentation framework specifically tailored for VLMs, with two key innovations: (1) a 2-stage retrieval process with image-anchored textual-query expansion to synergistically combine the visual and textual information in the query and retrieve the most relevant multimodal knowledge snippets; and (2) a robust retrieval augmentation method that strengthens the resilience of VLMs against irrelevant information in the retrieved multimodal knowledge by injecting adversarial noises into the retrieval-augmented training process, and filters out extraneous visual information, such as unrelated entities presented in images, via a query-oriented visual token refinement strategy. We conduct extensive experiments to validate the effectiveness and robustness of our proposed methods on three widely adopted benchmark datasets. Our results demonstrate that with a minimal amount of training instance, RORA-VLM enables the base model to achieve significant performance improvement and constantly outperform state-of-the-art retrieval-augmented VLMs on all benchmarks while also exhibiting a novel zero-shot domain transfer capability.
arxiv情報
著者 | Jingyuan Qi,Zhiyang Xu,Rulin Shao,Yang Chen,Jing Di,Yu Cheng,Qifan Wang,Lifu Huang |
発行日 | 2024-10-11 14:51:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google