要約
我々は、(1) DALL-E 3 によって生成され人間によって検証された大規模データセットである DalleStreet を導入することにより、(1) 大規模複合モデル (LMM) の文化的理解を調べるための包括的な 3 段階の研究を紹介します。
10 のコンセプト クラス。
(2) 文化的成果物抽出タスクとの根底にある暗黙的かつ潜在的にステレオタイプ的な文化的関連。
(3) モジュラー パイプライン CultureAdapt を使用して、抽出された関連性に基づいて画像内の文化的表現を適応させるアプローチ。
私たちは、DalleStreet およびその他の既存のベンチマークのオープンソース (LLaVA) モデルとクローズドソース (GPT-4V) モデルの両方で、地理的サブ地域レベルでの文化理解の格差を発見しました。
さまざまな国とのつながり。
私たちの調査結果は、LMM の文化的能力の微妙な全体像を明らかにし、文化を意識したシステムを開発する必要性を強調しています。
データセットとコードは https://github.com/iamshnoo/crossroads で入手できます。
要約(オリジナル)
We present a comprehensive three-phase study to examine (1) the cultural understanding of Large Multimodal Models (LMMs) by introducing DalleStreet, a large-scale dataset generated by DALL-E 3 and validated by humans, containing 9,935 images of 67 countries and 10 concept classes; (2) the underlying implicit and potentially stereotypical cultural associations with a cultural artifact extraction task; and (3) an approach to adapt cultural representation in an image based on extracted associations using a modular pipeline, CultureAdapt. We find disparities in cultural understanding at geographic sub-region levels with both open-source (LLaVA) and closed-source (GPT-4V) models on DalleStreet and other existing benchmarks, which we try to understand using over 18,000 artifacts that we identify in association to different countries. Our findings reveal a nuanced picture of the cultural competence of LMMs, highlighting the need to develop culture-aware systems. Dataset and code are available at https://github.com/iamshnoo/crossroads
arxiv情報
著者 | Anjishnu Mukherjee,Ziwei Zhu,Antonios Anastasopoulos |
発行日 | 2024-10-18 15:39:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google