要約
このホワイトペーパーでは、自動網性モデリングとフローマッチングを活用する改善されたネイティブ統合マルチモーダルモデル\ empond {i.e。、} show-o2を提示します。
3D因果変異の自動エンコーダー空間に基づいて構築された統一された視覚表現は、空間的な(-temporal)融合のデュアルパスによって構築され、効果的なマルチモーダルの理解と生成を確保しながら、画像とビデオのモダリティ全体でスケーラビリティを可能にします。
言語モデルに基づいて、テキストトークンの予測と画像/ビデオの生成を促進するために、それぞれ自己回帰モデリングとフローマッチングが言語ヘッドとフローヘッドにネイティブに適用されます。
2段階のトレーニングレシピは、より大きなモデルに効果的に学習し、拡大するように設計されています。
結果として得られるショー-O2モデルは、テキスト、画像、ビデオなど、さまざまなモダリティ全体の幅広いマルチモーダルの理解と生成タスクを処理する際の汎用性を示しています。
コードとモデルはhttps://github.com/showlab/show-oでリリースされます。
要約(オリジナル)
This paper presents improved native unified multimodal models, \emph{i.e.,} Show-o2, that leverage autoregressive modeling and flow matching. Built upon a 3D causal variational autoencoder space, unified visual representations are constructed through a dual-path of spatial (-temporal) fusion, enabling scalability across image and video modalities while ensuring effective multimodal understanding and generation. Based on a language model, autoregressive modeling and flow matching are natively applied to the language head and flow head, respectively, to facilitate text token prediction and image/video generation. A two-stage training recipe is designed to effectively learn and scale to larger models. The resulting Show-o2 models demonstrate versatility in handling a wide range of multimodal understanding and generation tasks across diverse modalities, including text, images, and videos. Code and models are released at https://github.com/showlab/Show-o.
arxiv情報
著者 | Jinheng Xie,Zhenheng Yang,Mike Zheng Shou |
発行日 | 2025-06-18 15:39:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google