VITA: Towards Open-Source Interactive Omni Multimodal LLM

要約

GPT-4o の優れたマルチモーダル機能とインタラクティブなエクスペリエンスは、実際のアプリケーションにおける GPT-4o の必要性を強調していますが、オープンソース モデルが両方の分野で優れていることはほとんどありません。
このペーパーでは、ビデオ、画像、テキスト、オーディオ モダリティの同時処理と分析に優れ、同時に高度なマルチモーダル インタラクティブ エクスペリエンスを備えた、史上初のオープンソース マルチモーダル大規模言語モデル (MLLM) である VITA を紹介します。
言語の基礎として Mixtral 8x7B から始めて、中国語の語彙を拡張し、その後バイリンガルの指導を調整します。
さらに、マルチモーダルアライメントと命令チューニングの 2 段階のマルチタスク学習を通じて、言語モデルに視覚および音声機能を与えます。
VITA は、さまざまなユニモーダルベンチマークとマルチモーダルベンチマークの両方にわたる強力なパフォーマンスによって証明されているように、多言語、視覚、および音声理解の堅牢な基礎機能を実証します。
基本的な機能を超えて、人間とコンピューターの自然なマルチモーダル インタラクション エクスペリエンスの強化において、私たちは大幅な進歩を遂げてきました。
私たちの知る限りでは、MLLM で非覚醒インタラクションとオーディオ割り込みを利用したのは私たちが初めてです。
VITA は、オープンソース コミュニティがマルチモーダルな理解と対話のシームレスな統合を模索するための最初のステップです。
VITA では、ソースに近いものに近づくためにやるべきことがまだたくさんありますが、先駆者としての VITA の役割がその後の研究の基礎となることを期待しています。
プロジェクトページ: https://vita-home.github.io

要約(オリジナル)

The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.

arxiv情報

著者 Chaoyou Fu,Haojia Lin,Zuwei Long,Yunhang Shen,Meng Zhao,Yifan Zhang,Xiong Wang,Di Yin,Long Ma,Xiawu Zheng,Ran He,Rongrong Ji,Yunsheng Wu,Caifeng Shan,Xing Sun
発行日 2024-08-09 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク