Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

要約

この論文では、マルチモーダルな理解と生成を統合する自己回帰フレームワークである Janus を紹介します。
従来の研究では、Chameleon など、両方のタスクに対して単一のビジュアル エンコーダに依存することがよくありました。
ただし、マルチモーダルの理解と生成に必要な情報の粒度のレベルが異なるため、このアプローチでは、特にマルチモーダルの理解において最適なパフォーマンスが得られない可能性があります。
この問題に対処するために、処理には単一の統合トランスフォーマー アーキテクチャを活用しながら、ビジュアル エンコーディングを別個の経路に分離します。
切り離しは、理解と生成におけるビジュアル エンコーダの役割間の矛盾を軽減するだけでなく、フレームワークの柔軟性も強化します。
たとえば、マルチモーダル理解コンポーネントと生成コンポーネントは両方とも、最適なエンコード方法を独立して選択できます。
実験の結果、Janus は以前の統合モデルを上回り、タスク固有のモデルと同等またはそれを上回るパフォーマンスを示しました。
Janus は、そのシンプルさ、高い柔軟性、有効性により、次世代の統合マルチモーダル モデルの有力な候補となっています。

要約(オリジナル)

In this paper, we introduce Janus, an autoregressive framework that unifies multimodal understanding and generation. Prior research often relies on a single visual encoder for both tasks, such as Chameleon. However, due to the differing levels of information granularity required by multimodal understanding and generation, this approach can lead to suboptimal performance, particularly in multimodal understanding. To address this issue, we decouple visual encoding into separate pathways, while still leveraging a single, unified transformer architecture for processing. The decoupling not only alleviates the conflict between the visual encoder’s roles in understanding and generation, but also enhances the framework’s flexibility. For instance, both the multimodal understanding and generation components can independently select their most suitable encoding methods. Experiments show that Janus surpasses previous unified model and matches or exceeds the performance of task-specific models. The simplicity, high flexibility, and effectiveness of Janus make it a strong candidate for next-generation unified multimodal models.

arxiv情報

著者 Chengyue Wu,Xiaokang Chen,Zhiyu Wu,Yiyang Ma,Xingchao Liu,Zizheng Pan,Wen Liu,Zhenda Xie,Xingkai Yu,Chong Ruan,Ping Luo
発行日 2024-10-17 17:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク