All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

要約

既存の大規模マルチモーダル モデル (LMM) は通常、少数の地域と言語のみに焦点を当てています。
LMM が改善し続けるにつれて、対応する視覚的な手がかりを効果的に統合しながら、文化的背景を理解し、地域の感性を尊重し、低リソース言語をサポートすることがますます重要になっています。
文化的に多様なグローバル マルチモーダル モデルを追求するために、私たちが提案する All Languages Matter Benchmark (ALM ベンチ) は、100 言語にわたる LMM を評価するためのこれまでで最大かつ最も包括的な取り組みを表しています。
ALM ベンチは、LMM 研究で伝統的に過小評価されてきた多くの低リソース言語を含む、さまざまな言語のテキストと組み合わせた文化的に多様な画像を理解し推論する能力をテストすることで、既存のモデルに挑戦します。
このベンチマークは、正誤問題、多肢選択問題、自由回答形式の質問を含むさまざまな質問形式を特徴とする堅牢で微妙な評価フレームワークを提供し、さらに短答式と長答式のカテゴリに分類されます。
ALM ベンチの設計により、視覚的および言語的推論におけるさまざまなレベルの難易度に対応するモデルの能力を包括的に評価できます。
世界文化の豊かなタペストリーを捉えるために、ALM ベンチは、伝統や儀式から有名人やお祝いに至るまで、13 の異なる文化的側面からコンテンツを慎重に厳選しています。
これにより、ALM ベンチは最先端のオープンソースおよびクローズドソース LMM の厳格なテスト場を提供するだけでなく、文化的および言語的包括性の重要性を強調し、世界中の多様な人々に効果的にサービスを提供できるモデルの開発を促進します。

当社のベンチマークは公開されています。

要約(オリジナル)

Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model’s ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.

arxiv情報

著者 Ashmal Vayani,Dinura Dissanayake,Hasindri Watawana,Noor Ahsan,Nevasini Sasikumar,Omkar Thawakar,Henok Biadglign Ademtew,Yahya Hmaiti,Amandeep Kumar,Kartik Kuckreja,Mykola Maslych,Wafa Al Ghallabi,Mihail Mihaylov,Chao Qin,Abdelrahman M Shaker,Mike Zhang,Mahardika Krisna Ihsani,Amiel Esplana,Monil Gokani,Shachar Mirkin,Harsh Singh,Ashay Srivastava,Endre Hamerlik,Fathinah Asma Izzati,Fadillah Adamsyah Maani,Sebastian Cavada,Jenny Chim,Rohit Gupta,Sanjay Manjunath,Kamila Zhumakhanova,Feno Heriniaina Rabevohitra,Azril Amirudin,Muhammad Ridzuan,Daniya Kareem,Ketan More,Kunyang Li,Pramesh Shakya,Muhammad Saad,Amirpouya Ghasemaghaei,Amirbek Djanibekov,Dilshod Azizov,Branislava Jankovic,Naman Bhatia,Alvaro Cabrera,Johan Obando-Ceron,Olympiah Otieno,Fabian Farestam,Muztoba Rabbani,Sanoojan Baliah,Santosh Sanjeev,Abduragim Shtanchaev,Maheen Fatima,Thao Nguyen,Amrin Kareem,Toluwani Aremu,Nathan Xavier,Amit Bhatkal,Hawau Toyin,Aman Chadha,Hisham Cholakkal,Rao Muhammad Anwer,Michael Felsberg,Jorma Laaksonen,Thamar Solorio,Monojit Choudhury,Ivan Laptev,Mubarak Shah,Salman Khan,Fahad Khan
発行日 2024-11-25 15:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク