Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

要約

Sora は、任意の解像度、アスペクト比、および継続時間でフォトリアリスティックな画像とビデオを生成するための拡散トランスフォーマーのスケーリングの可能性を明らかにしていますが、実装の詳細はまだ十分ではありません。
この技術レポートでは、ノイズを画像、ビデオ、マルチビューに変換するように設計された統合フレームワークとして、ゼロ初期化アテンションを備えた一連のフローベース大型拡散トランス (Flag-DiT) である Lumina-T2X ファミリを紹介します。
3D オブジェクト、およびテキストの指示に基づいたオーディオ クリップ。
Lumina-T2X は、潜在的な時空間をトークン化し、[nextline] や [nextframe] トークンなどの学習可能なプレースホルダーを組み込むことにより、さまざまな時空間解像度にわたる異なるモダリティの表現をシームレスに統合します。
この統一されたアプローチにより、単一のフレームワーク内でさまざまなモダリティのトレーニングが可能になり、推論中に任意の解像度、アスペクト比、長さでマルチモーダル データを柔軟に生成できるようになります。
RoPE、RMSNorm、フロー マッチングなどの高度な技術により、Flag-DiT の安定性、柔軟性、スケーラビリティが向上し、Lumina-T2X のモデルが最大 70 億のパラメータにスケールアップし、コンテキスト ウィンドウを 128,000 のトークンに拡張できるようになります。
これは、Lumina-T2I モデルで超高解像度画像を作成したり、Lumina-T2V モデルで長い 720p ビデオを作成したりする場合に特に有益です。
注目すべきことに、50 億パラメータの Flag-DiT を搭載した Lumina-T2I は、6 億パラメータのナイーブ DiT のトレーニング計算コストの 35% しか必要としません。
さらに包括的な分析により、解像度の外挿、高解像度の編集、一貫した 3D ビューの生成、シームレスなトランジションを備えたビデオの合成における Lumina-T2X の予備的な機能が強調されています。
Lumina-T2X のオープンソース化により、生成 AI コミュニティの創造性、透明性、多様性がさらに促進されることを期待しています。

要約(オリジナル)

Sora unveils the potential of scaling Diffusion Transformer for generating photorealistic images and videos at arbitrary resolutions, aspect ratios, and durations, yet it still lacks sufficient implementation details. In this technical report, we introduce the Lumina-T2X family – a series of Flow-based Large Diffusion Transformers (Flag-DiT) equipped with zero-initialized attention, as a unified framework designed to transform noise into images, videos, multi-view 3D objects, and audio clips conditioned on text instructions. By tokenizing the latent spatial-temporal space and incorporating learnable placeholders such as [nextline] and [nextframe] tokens, Lumina-T2X seamlessly unifies the representations of different modalities across various spatial-temporal resolutions. This unified approach enables training within a single framework for different modalities and allows for flexible generation of multimodal data at any resolution, aspect ratio, and length during inference. Advanced techniques like RoPE, RMSNorm, and flow matching enhance the stability, flexibility, and scalability of Flag-DiT, enabling models of Lumina-T2X to scale up to 7 billion parameters and extend the context window to 128K tokens. This is particularly beneficial for creating ultra-high-definition images with our Lumina-T2I model and long 720p videos with our Lumina-T2V model. Remarkably, Lumina-T2I, powered by a 5-billion-parameter Flag-DiT, requires only 35% of the training computational costs of a 600-million-parameter naive DiT. Our further comprehensive analysis underscores Lumina-T2X’s preliminary capability in resolution extrapolation, high-resolution editing, generating consistent 3D views, and synthesizing videos with seamless transitions. We expect that the open-sourcing of Lumina-T2X will further foster creativity, transparency, and diversity in the generative AI community.

arxiv情報

著者 Peng Gao,Le Zhuo,Ziyi Lin,Chris Liu,Junsong Chen,Ruoyi Du,Enze Xie,Xu Luo,Longtian Qiu,Yuhang Zhang,Chen Lin,Rongjie Huang,Shijie Geng,Renrui Zhang,Junlin Xi,Wenqi Shao,Zhengkai Jiang,Tianshuo Yang,Weicai Ye,He Tong,Jingwen He,Yu Qiao,Hongsheng Li
発行日 2024-05-09 17:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク