要約
私たちは、対照的視覚言語モデル (VLM) における文化的および社会経済的多様性を研究しています。
幅広いベンチマーク データセットと評価指標を使用して、いくつかの重要な発見を明らかにしました。
まず、英語の画像とテキストのペアに対するトレーニング データの一般的なフィルタリングは、社会経済的地位が低いコミュニティに不利になり、文化理解に悪影響を及ぼします。
注目すべきことに、このパフォーマンスのギャップは、西洋中心の ImageNet および COCO データセットから派生した現在一般的な評価指標では捉えられず、さらにはそれと相容れないことです。
第 2 に、英語のコンテンツを微調整する前に、フィルタリングされていないグローバル データを使用して事前トレーニングを行うと、一般的なベンチマークでのパフォーマンスを犠牲にすることなく、文化的理解を向上させることができます。
第三に、VLM の文化的多様性を評価するための新しい評価指標として地理位置特定のタスクを導入します。
私たちの取り組みは、多様なデータを使用してより包括的なマルチモーダル システムを作成することの価値を強調し、グローバルな視点をより適切に表現する VLM を開発するための基礎を築きます。
要約(オリジナル)
We study cultural and socioeconomic diversity in contrastive vision-language models (VLMs). Using a broad range of benchmark datasets and evaluation metrics, we bring to attention several important findings. First, the common filtering of training data to English image-text pairs disadvantages communities of lower socioeconomic status and negatively impacts cultural understanding. Notably, this performance gap is not captured by – and even at odds with – the currently popular evaluation metrics derived from the Western-centric ImageNet and COCO datasets. Second, pretraining with global, unfiltered data before fine-tuning on English content can improve cultural understanding without sacrificing performance on said popular benchmarks. Third, we introduce the task of geo-localization as a novel evaluation metric to assess cultural diversity in VLMs. Our work underscores the value of using diverse data to create more inclusive multimodal systems and lays the groundwork for developing VLMs that better represent global perspectives.
arxiv情報
著者 | Angéline Pouget,Lucas Beyer,Emanuele Bugliarello,Xiao Wang,Andreas Peter Steiner,Xiaohua Zhai,Ibrahim Alabdulmohsin |
発行日 | 2024-05-24 14:39:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google