Chitrarth: Bridging Vision and Language for a Billion People

要約

最近のマルチモーダルファンデーションモデルは、主に英語または高リソースのヨーロッパ言語データでトレーニングされており、他の中型および低リソース言語への適用性を妨げています。
この制限に対処するために、包括的なビジョン言語モデル(VLM)であるChitrarth(Chitra:Image; Artha:意味)を紹介します。特に、10の著名なインド言語にわたる豊富な言語の多様性と視覚的推論を標的としています。
私たちのモデルは、主に多言語の画像テキストデータでトレーニングされた、最先端の(SOTA)多言語大手言語モデル(LLM)をVisionモジュールと効果的に統合しています。
さらに、さまざまなインド言語でVLMを評価するための包括的なフレームワークであるBharatbenchも紹介し、最終的にはより多様で効果的なAIシステムに貢献しています。
私たちのモデルは、英語での効率を保持しながら、低リソース言語のベンチマークのSOTA結果を達成します。
私たちの研究を通じて、私たちは多言語のマルチモーダル機能に新しいベンチマークを設定し、既存のモデルを大幅に改善し、この分野での将来の進歩を促進するための基盤を確立することを目指しています。

要約(オリジナル)

Recent multimodal foundation models are primarily trained on English or high resource European language data, which hinders their applicability to other medium and low-resource languages. To address this limitation, we introduce Chitrarth (Chitra: Image; Artha: Meaning), an inclusive Vision-Language Model (VLM), specifically targeting the rich linguistic diversity and visual reasoning across 10 prominent Indian languages. Our model effectively integrates a state-of-the-art (SOTA) multilingual Large Language Model (LLM) with a vision module, primarily trained on multilingual image-text data. Furthermore, we also introduce BharatBench, a comprehensive framework for evaluating VLMs across various Indian languages, ultimately contributing to more diverse and effective AI systems. Our model achieves SOTA results for benchmarks across low resource languages while retaining its efficiency in English. Through our research, we aim to set new benchmarks in multilingual-multimodal capabilities, offering substantial improvements over existing models and establishing a foundation to facilitate future advancements in this arena.

arxiv情報

著者 Shaharukh Khan,Ayush Tarun,Abhinav Ravi,Ali Faraz,Akshat Patidar,Praveen Kumar Pokala,Anagha Bhangare,Raja Kolla,Chandra Khatri,Shubham Agarwal
発行日 2025-02-21 11:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク