Behind Maya: Building a Multilingual Vision Language Model

要約

最近では、大規模なビジョン言語モデル(VLM)の急速な発展が見られました。
彼らは、主に広く話されている言語では、学術ベンチマークで印象的な結果を示していますが、低リソース言語と多様な文化的文脈ではパフォーマンスがありません。
これらの制限に対処するために、オープンソースの多言語VLMであるMayaを紹介します。
私たちの貢献は次のとおりです。1)LLAVA Pretrainingデータセットに基づく8つの言語の多言語画像テキスト前削除データセット。
2)これらの言語をサポートする多言語画像テキストモデルで、ビジョン言語タスクにおける文化的および言語的理解を高めます。
https://github.com/nahidalam/mayaで入手可能なコード。

要約(オリジナル)

In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

arxiv情報

著者 Nahid Alam,Karthik Reddy Kanjula,Surya Guthikonda,Timothy Chung,Bala Krishna S Vegesna,Abhipsha Das,Anthony Susevski,Ryan Sze-Yin Chan,S M Iftekhar Uddin,Shayekh Bin Islam,Roshan Santhosh,Snegha A,Drishti Sharma,Chen Liu,Isha Chaturvedi,Genta Indra Winata,Ashvanth. S,Snehanshu Mukherjee,Alham Fikri Aji
発行日 2025-05-13 19:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク