VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約

近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモダリティの統合に重点を置いており、対話強化における音声の役割にはあまり重点を置いていない。しかし、音声はマルチモーダル対話システムにおいて重要な役割を果たすが、基本的なモダリティの違いにより、視覚と音声の両タスクにおいて高性能を実現することは依然として大きな課題である。本論文では、視覚と音声の両方の情報を理解できるようにLLMを段階的に訓練し、最終的に流暢な視覚と音声の対話を可能にする、注意深く設計された多段階訓練手法を提案する。我々のアプローチは、強力な視覚言語能力を保持するだけでなく、ASRとTTSモジュールを分離することなく効率的な音声対話機能を実現し、マルチモーダルなエンドツーエンドの応答速度を大幅に加速する。画像、ビデオ、音声タスクのベンチマークにおいて、我々の手法を最先端のものと比較することにより、我々のモデルが強力な視覚と音声の両方の能力を備え、ほぼリアルタイムの視覚と音声の対話が可能であることを実証する。

要約(オリジナル)

Recent Multimodal Large Language Models (MLLMs) have typically focused on integrating visual and textual modalities, with less emphasis placed on the role of speech in enhancing interaction. However, speech plays a crucial role in multimodal dialogue systems, and implementing high-performance in both vision and speech tasks remains a significant challenge due to the fundamental modality differences. In this paper, we propose a carefully designed multi-stage training methodology that progressively trains LLM to understand both visual and speech information, ultimately enabling fluent vision and speech interaction. Our approach not only preserves strong vision-language capacity, but also enables efficient speech-to-speech dialogue capabilities without separate ASR and TTS modules, significantly accelerating multimodal end-to-end response speed. By comparing our method against state-of-the-art counterparts across benchmarks for image, video, and speech tasks, we demonstrate that our model is equipped with both strong visual and speech capabilities, making near real-time vision and speech interaction.

arxiv情報

著者 Chaoyou Fu,Haojia Lin,Xiong Wang,Yi-Fan Zhang,Yunhang Shen,Xiaoyu Liu,Yangze Li,Zuwei Long,Heting Gao,Ke Li,Xiawu Zheng,Rongrong Ji,Xing Sun,Caifeng Shan,Ran He
発行日 2025-01-03 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク