JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

要約

英語以外の言語での大規模マルチモーダル モデル (LMM) に関する研究を加速することは、より広範な人々の間でユーザー エクスペリエンスを向上させるために非常に重要です。
本稿では、日本の文化的背景に基づいて専門家レベルのタスクで LMM を評価するために設計された初の大規模な日本ベンチマークである JMMMU (Japanese MMMU) を紹介します。
包括的な文化を意識した評価を促進するために、JMMMU は 2 つの相補的なサブセットを備えています: (i) 文化に依存しない (CA) サブセット。文化に依存しない科目 (数学など) が選択され、日本語に翻訳され、1 対 1 の比較が可能になります。
英国の対応するMMMUと。
(ii) 日本の文化的背景を反映して新たに作成された主題で構成される文化固有 (CS) サブセット。
CA サブセットを使用すると、日本語で評価すると多くの LMM でパフォーマンスの低下が観察されますが、これは純粋に言語の違いに起因します。
CS サブセットを使用して、彼らの日本文化理解が不十分であることを明らかにします。
さらに、両方のサブセットを組み合わせることで、一部の LMM は CA サブセットではうまく機能するが、CS サブセットではうまく機能しないことがわかり、文化的理解の深さに欠ける浅い日本語理解が明らかになりました。
私たちは、この研究が日本語での LMM パフォーマンスの向上に役立つだけでなく、多言語 LMM 開発のための高水準で文化的に多様なベンチマークを作成するためのガイドラインとしても役立つことを願っています。
プロジェクトページはhttps://mmmu-japanese-benchmark.github.io/JMMMU/です。

要約(オリジナル)

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

arxiv情報

著者 Shota Onohara,Atsuyuki Miyai,Yuki Imajuku,Kazuki Egashira,Jeonghun Baek,Xiang Yue,Graham Neubig,Kiyoharu Aizawa
発行日 2024-10-22 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク