要約
このペーパーでは、エンドツーエンドの自己回帰方式で音声、テキスト、画像、ビデオを理解して生成できる、マルチモーダル トークンに基づいて構築された新しい基盤モデルである MIO を紹介します。
大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MM-LLM) の出現により、その多用途な機能により汎用人工知能の進歩が推進されていますが、真の Any-to-Any の理解と生成は依然として不足しています。
最近、GPT-4o のリリースにより、複雑な現実世界のタスクに対する Any-to-Any LLM の注目すべき可能性が示され、画像、音声、テキストにわたる全方向入出力が可能になりました。
ただし、これはクローズドソースであり、マルチモーダル インターリーブ シーケンスの生成をサポートしていません。
このギャップに対処するために、因果的マルチモーダル モデリングを使用して 4 つのモダリティにわたる離散トークンの混合でトレーニングされる MIO を紹介します。
MIO は 4 段階のトレーニング プロセスを経ます: (1) アライメント事前トレーニング、(2) インターリーブ事前トレーニング、(3) 音声強化事前トレーニング、(4) さまざまなテキスト、視覚、音声に関する包括的な教師付き微調整。
そしてスピーチの課題。
私たちの実験結果は、MIO が以前のデュアルモーダル ベースライン、any-to-any モデル ベースライン、さらにはモダリティ固有のベースラインと比較して、競合する、場合によっては優れたパフォーマンスを示すことを示しています。
さらに、MIO は、インターリーブされたビデオテキストの生成、視覚的思考の連鎖、視覚的なガイドラインの生成、説明用画像の編集など、any-to-any 機能に固有の高度な機能を実証します。
要約(オリジナル)
In this paper, we introduce MIO, a novel foundation model built on multimodal tokens, capable of understanding and generating speech, text, images, and videos in an end-to-end, autoregressive manner. While the emergence of large language models (LLMs) and multimodal large language models (MM-LLMs) propels advancements in artificial general intelligence through their versatile capabilities, they still lack true any-to-any understanding and generation. Recently, the release of GPT-4o has showcased the remarkable potential of any-to-any LLMs for complex real-world tasks, enabling omnidirectional input and output across images, speech, and text. However, it is closed-source and does not support the generation of multimodal interleaved sequences. To address this gap, we present MIO, which is trained on a mixture of discrete tokens across four modalities using causal multimodal modeling. MIO undergoes a four-stage training process: (1) alignment pre-training, (2) interleaved pre-training, (3) speech-enhanced pre-training, and (4) comprehensive supervised fine-tuning on diverse textual, visual, and speech tasks. Our experimental results indicate that MIO exhibits competitive, and in some cases superior, performance compared to previous dual-modal baselines, any-to-any model baselines, and even modality-specific baselines. Moreover, MIO demonstrates advanced capabilities inherent to its any-to-any feature, such as interleaved video-text generation, chain-of-visual-thought reasoning, visual guideline generation, instructional image editing, etc.
arxiv情報
著者 | Zekun Wang,King Zhu,Chunpu Xu,Wangchunshu Zhou,Jiaheng Liu,Yibo Zhang,Jiashuo Wang,Ning Shi,Siyu Li,Yizhi Li,Haoran Que,Zhaoxiang Zhang,Yuanxing Zhang,Ge Zhang,Ke Xu,Jie Fu,Wenhao Huang |
発行日 | 2024-09-26 09:57:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google