要約
特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダリティを理解できるオムニモーダルモデルの開発への関心が高まっています。
いくつかのオープンソースの代替品が出現していますが、パフォーマンスには特殊なシングルモダリティモデルの背後には顕著な遅れがあります。
このペーパーでは、専門化されたカウンターパートと比較して、画像、ビデオ、オーディオの理解を超えて競争力のあるパフォーマンスを達成するオムニモーダル言語モデルであるOlaを紹介します。
Olaのコア設計は、言語モデルのサポートモダリティを徐々に拡張するプログレッシブモダリティアライメント戦略にあります。
トレーニングパイプラインは、画像とテキストという最も明確なモダリティから始まり、言語とオーディオの知識を接続する音声データ、およびすべてのモダリティを接続するビデオデータを使用して、モデルのスキルセットを徐々に拡張します。
プログレッシブ学習パイプラインにより、クロスモーダルアライメントデータの比較的小さなサイズを維持することもでき、既存のビジョン言語モデルからのオムニモーダルの開発が簡単でコストがかかりません。
さらに、GPT-4Oなどの高度なインタラクティブエクスペリエンスのロックを解除するために、ストリーミング音声生成のための文ごとのデコードソリューションをさらに設計します。
広範な実験は、Olaがすべてのモダリティにわたって既存のオープンオムニモーダルLLMを上回り、同様のサイズの最先端の専門モデルと比較して非常に競争力のあるパフォーマンスを達成することを示しています。
私たちは、この新興分野での将来の研究を促進するために、オラを完全にオープンなオムニモーダル理解ソリューションにすることを目指しています。
モデルの重み、コード、およびデータは、https://github.com/ola-omni/olaでオープンソーリングされています。
要約(オリジナル)
Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.
arxiv情報
著者 | Zuyan Liu,Yuhao Dong,Jiahui Wang,Ziwei Liu,Winston Hu,Jiwen Lu,Yongming Rao |
発行日 | 2025-02-06 18:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google