要約
マルチモーダル言語モデルの構築は根本的に困難です。ビジョンと言語のモダリティを調整し、高品質の指導データをキュレーションし、ビジョンが導入されたら既存のテキストのみの機能の劣化を回避する必要があります。
これらの困難は、さまざまな言語でマルチモーダルデータの必要性が既存のデータ不足を悪化させ、機械の翻訳が意味を歪め、壊滅的な忘却がより顕著になることが多い多言語設定でさらに拡大されます。
前述の課題に対処するために、データとモデリングの両方にまたがる新しい手法を紹介します。
まず、高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発し、AYAビジョンモデルが多くの言語にわたるマルチモーダル入力に対する自然でヒトが優先される応答を生成できるようにします。
これを補完すると、壊滅的な忘却を緩和し、テキストのみの機能を効果的に保存しながら、マルチモーダル生成パフォーマンスを強化するクロスモーダルモデルの合併手法を提案します。
AYA-Vision-8Bは、QWEN-2.5-VL-7B、PIXTRAL-12B、さらにはるかに大きなLlama-3.2-90B-Visionなどの強力なマルチモーダルモデルと比較して、クラス最高のパフォーマンスを実現します。
さらに、Molmo-72BやLlama-3.2-90B-Visionなどのサイズの2倍以上のモデルよりも優れたAya-Vision-32Bでこのアプローチを拡大します。
私たちの仕事は、マルチモーダルフロンティアで多言語の進歩を進め、非常に高いパフォーマンスを提供しながら、計算の必要性を効果的に曲げる技術に関する洞察を提供します。
要約(オリジナル)
Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.
arxiv情報
著者 | Saurabh Dash,Yiyang Nan,John Dang,Arash Ahmadian,Shivalika Singh,Madeline Smith,Bharat Venkitesh,Vlad Shmyhlo,Viraat Aryabumi,Walter Beller-Morales,Jeremy Pekmez,Jason Ozuzu,Pierre Richemond,Acyr Locatelli,Nick Frosst,Phil Blunsom,Aidan Gomez,Ivan Zhang,Marzieh Fadaee,Manoj Govindassamy,Sudip Roy,Matthias Gallé,Beyza Ermis,Ahmet Üstün,Sara Hooker |
発行日 | 2025-05-13 17:03:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google