CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries

要約

視覚言語モデル(VLM)は人間とAIのインタラクションを進化させたが、文化的理解には苦労しており、欧米中心の学習データではバイアスがかかるため、シンボル、ジェスチャー、人工物の解釈を誤ることが多い。本論文では、VLMの多文化理解能力を特徴付け、改善することを目的として、19,682の文化概念、188の国/地域、15の文化概念、3つの質問タイプをカバーする大規模なマルチモーダルベンチマークであるCultureVerseを構築する。そして、文化理解において大幅な性能向上を達成するために、我々のデータセット上で微調整された一連のVLMであるCultureVLMを提案する。16のモデルを評価した結果、欧米の概念では性能が高く、アフリカやアジアの文脈では性能が低いという、大きな格差が明らかになった。我々のCultureVerseでファインチューニングを行うことで、モデルの一般的なVLMベンチマークでの性能を犠牲にすることなく、文化横断的、大陸横断的、データセット横断的な汎化を実証し、文化認識を強化する。我々はさらに、文化的汎化と忘却に関する洞察を示す。この研究が、より公平で文化的認識の高いマルチモーダルAIシステムの基礎となることを期待している。

要約(オリジナル)

Vision-language models (VLMs) have advanced human-AI interaction but struggle with cultural understanding, often misinterpreting symbols, gestures, and artifacts due to biases in predominantly Western-centric training data. In this paper, we construct CultureVerse, a large-scale multimodal benchmark covering 19, 682 cultural concepts, 188 countries/regions, 15 cultural concepts, and 3 question types, with the aim of characterizing and improving VLMs’ multicultural understanding capabilities. Then, we propose CultureVLM, a series of VLMs fine-tuned on our dataset to achieve significant performance improvement in cultural understanding. Our evaluation of 16 models reveals significant disparities, with a stronger performance in Western concepts and weaker results in African and Asian contexts. Fine-tuning on our CultureVerse enhances cultural perception, demonstrating cross-cultural, cross-continent, and cross-dataset generalization without sacrificing performance on models’ general VLM benchmarks. We further present insights on cultural generalization and forgetting. We hope that this work could lay the foundation for more equitable and culturally aware multimodal AI systems.

arxiv情報

著者 Shudong Liu,Yiqiao Jin,Cheng Li,Derek F. Wong,Qingsong Wen,Lichao Sun,Haipeng Chen,Xing Xie,Jindong Wang
発行日 2025-01-02 14:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク