PALO: A Polyglot Large Multimodal Model for 5B People


より包括的な視覚言語モデル (VLM) を追求するために、この研究では PALO と呼ばれる大規模な多言語マルチモーダル モデルを導入します。
PALO は、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む 10 の主要言語で視覚的推論機能を提供しており、合計約 50 億人 (世界人口の 65%) が利用しています。
結果として得られるモデルは 3 つのスケール (1.7B、7B、および 13B パラメーター) にわたってトレーニングされ、強力なベースラインと比較して大幅な改善が観察される一般化とスケーラビリティを示します。


In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called PALO. PALO offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of ~5B people (65% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code:


著者 Muhammad Maaz,Hanoona Rasheed,Abdelrahman Shaker,Salman Khan,Hisham Cholakal,Rao M. Anwer,Tim Baldwin,Michael Felsberg,Fahad S. Khan
発行日 2024-03-05 11:22:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク