RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

要約

ビジョン言語モデル(VLM)が日常生活にますます統合されるようになるにつれて、正確な視覚文化の理解の必要性が重要になっています。
しかし、これらのモデルは、文化的ニュアンスを効果的に解釈するのに頻繁に不足しています。
以前の研究では、テキストのみの設定での文化的理解を高める上で、検索された生成(RAG)の有効性が実証されていますが、マルチモーダルシナリオへの適用は未脱カタリングのままです。
このギャップを埋めるために、Ravenea(検索された視覚文化の理解)を紹介します。これは、検索を通じて視覚文化の理解を進めるために設計された新しいベンチマークであり、2つのタスクに焦点を当てています。文化に焦点を当てた視覚的質問(CVQA)と文化に基づいた画像キャプション(CIC)です。
Raveneaは、キュレーションされ、人間のアノテーターによってランク付けされた10,000を超えるウィキペディアドキュメントを統合することにより、既存のデータセットを拡張します。
Raveneaを使用すると、各画像クエリに対して7つのマルチモーダルレトリバーをトレーニングおよび評価し、14の最先端のVLMにわたる検索された入力の下流の影響を測定します。
我々の結果は、軽量のVLMが培養認識の検索で増強されたときに、非活性化されたカウンターパートよりも優れていることを示しています(CVQAでは少なくとも3.2%、CICで6.2%絶対)。
これは、検索されたメソッドの価値と、マルチモーダル理解のための文化的に包括的なベンチマークの価値を強調しています。

要約(オリジナル)

As vision-language models (VLMs) become increasingly integrated into daily life, the need for accurate visual culture understanding is becoming critical. Yet, these models frequently fall short in interpreting cultural nuances effectively. Prior work has demonstrated the effectiveness of retrieval-augmented generation (RAG) in enhancing cultural understanding in text-only settings, while its application in multimodal scenarios remains underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), a new benchmark designed to advance visual culture understanding through retrieval, focusing on two tasks: culture-focused visual question answering (cVQA) and culture-informed image captioning (cIC). RAVENEA extends existing datasets by integrating over 10,000 Wikipedia documents curated and ranked by human annotators. With RAVENEA, we train and evaluate seven multimodal retrievers for each image query, and measure the downstream impact of retrieval-augmented inputs across fourteen state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented with culture-aware retrieval, outperform their non-augmented counterparts (by at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the value of retrieval-augmented methods and culturally inclusive benchmarks for multimodal understanding.

arxiv情報

著者 Jiaang Li,Yifei Yuan,Wenyan Li,Mohammad Aliannejadi,Daniel Hershcovich,Anders Søgaard,Ivan Vulić,Wenxuan Zhang,Paul Pu Liang,Yang Deng,Serge Belongie
発行日 2025-05-20 14:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク