M5 — A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks

要約

ChatGPT のリリース以来、自然言語処理の分野は、特に大規模言語モデル (LLM) とそのマルチモーダル対応物である大規模マルチモーダル モデル (LMM) において急速な進歩を遂げています。
LLM は、その優れた機能にもかかわらず、さまざまなテキストのみのベンチマークで実証されているように、言語や文化的背景が異なるとパフォーマンスに大きな差が生じることがよくあります。
しかし、現在の研究には、マルチモーダルな視覚言語環境に関するそのようなベンチマークがありません。
この研究では、多言語および多文化のコンテキスト内で多様な視覚言語タスクに関する LMM を評価するように設計された初の包括的なベンチマークである M5 を導入することで、このギャップを埋めています。
M5 には、過小評価されている言語と文化的に多様なイメージに焦点を当てた、5 つのタスクと 41 ドルの言語をカバーする 8 つのデータセットが含まれています。
さらに、評価されたすべてのオープンソース モデルがランダム ベースラインを大幅に超えることができない新しい Visio-Linguistic Outlier Detection タスクを含む 2 つの新しいデータセット、M5-VGR と M5-VLOD を紹介します。
広範な評価と分析を通じて、高リソース言語と低リソース言語の間には、タスクに依存しないパフォーマンスの大きな差があることが明らかになりました。
さらに、多言語設定では、より大きなモデルが必ずしも小さなモデルよりも優れたパフォーマンスを発揮するとは限らないことを示します。

要約(オリジナル)

Since the release of ChatGPT, the field of Natural Language Processing has experienced rapid advancements, particularly in Large Language Models (LLMs) and their multimodal counterparts, Large Multimodal Models (LMMs). Despite their impressive capabilities, LLMs often exhibit significant performance disparities across different languages and cultural contexts, as demonstrated by various text-only benchmarks. However, current research lacks such benchmarks for multimodal visio-linguistic settings. This work fills this gap by introducing M5, the first comprehensive benchmark designed to evaluate LMMs on diverse vision-language tasks within a multilingual and multicultural context. M5 includes eight datasets covering five tasks and $41$ languages, with a focus on underrepresented languages and culturally diverse images. Furthermore, we introduce two novel datasets, M5-VGR and M5-VLOD, including a new Visio-Linguistic Outlier Detection task, in which all evaluated open-source models fail to significantly surpass the random baseline. Through extensive evaluation and analyses, we highlight substantial task-agnostic performance disparities between high- and low-resource languages. Moreover, we show that larger models do not necessarily outperform smaller ones in a multilingual setting.

arxiv情報

著者 Florian Schneider,Sunayana Sitaram
発行日 2024-08-26 07:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク