要約
テキストプロンプトを与えられた画像の生成、視覚入力に基づいた質問への回答、さらには長い画像テキストインターリーブコンテンツの作成に優れたオートルーレッシブ(AR)変圧器であるOrthusを紹介します。
Unified Multimodal Modelingの以前の芸術とは異なり、Orthusは同時に、ARモデリングの原則の下で離散テキストトークンと連続画像機能を対処します。
視覚信号の継続的な処理は、画像理解と生成の両方の情報損失を最小限に抑え、完全にARの定式化により、モダリティ間の相関の特性評価が簡単になります。
Orthusがこれらの利点を活用できるようにする重要なメカニズムは、モダリティ固有のヘッドにあります。1つの通常の言語モデリング(LM)ヘッドは離散テキストトークンを予測し、1つの拡散ヘッドはバックボーンの出力で連続画像機能の条件付けを生成します。
既存の統合ARモデルのベクトル量子量子化(VQ)操作をソフトな代替品で置き換え、拡散ヘッドを導入し、追加されたモジュールを調整して画像を再構築するために、装飾モデルを簡単に作成できます(たとえば、72 a100 gpu時間内)。
Orthus-baseは、トレーニング後のトレーニングをさらに採用し、インターリーブ画像やテキストを改善することができます。
経験的に、orthusは標準ベンチマーク全体でShow-OやChameleonを含む競合するベースラインを上回り、7bパラメーターを使用して0.58の遺伝子スコアとMME-Pスコア1265.8を達成します。
Orthusは、複雑な実用的な生成タスクを処理する可能性を反映して、例外的な混合モダリティ生成機能も示しています。
要約(オリジナル)
We introduce Orthus, an autoregressive (AR) transformer that excels in generating images given textual prompts, answering questions based on visual inputs, and even crafting lengthy image-text interleaved contents. Unlike prior arts on unified multimodal modeling, Orthus simultaneously copes with discrete text tokens and continuous image features under the AR modeling principle. The continuous treatment of visual signals minimizes the information loss for both image understanding and generation while the fully AR formulation renders the characterization of the correlation between modalities straightforward. The key mechanism enabling Orthus to leverage these advantages lies in its modality-specific heads — one regular language modeling (LM) head predicts discrete text tokens and one diffusion head generates continuous image features conditioning on the output of the backbone. We devise an efficient strategy for building Orthus — by substituting the Vector Quantization (VQ) operation in the existing unified AR model with a soft alternative, introducing a diffusion head, and tuning the added modules to reconstruct images, we can create an Orthus-base model effortlessly (e.g., within mere 72 A100 GPU hours). Orthus-base can further embrace post-training to better model interleaved images and texts. Empirically, Orthus surpasses competing baselines including Show-o and Chameleon across standard benchmarks, achieving a GenEval score of 0.58 and an MME-P score of 1265.8 using 7B parameters. Orthus also shows exceptional mixed-modality generation capabilities, reflecting the potential for handling intricate practical generation tasks.
arxiv情報
著者 | Siqi Kou,Jiachun Jin,Zhihong Liu,Chang Liu,Ye Ma,Jian Jia,Quan Chen,Peng Jiang,Zhijie Deng |
発行日 | 2025-04-16 10:04:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google