要約
ここでは、画像の理解と生成を 1 つのモデルに統合する強力なフレームワークである JanusFlow を紹介します。
JanusFlow は、自己回帰言語モデルと生成モデリングの最先端の手法である修正フローを統合するミニマリスト アーキテクチャを導入しています。
私たちの重要な発見は、修正されたフローが大規模な言語モデルのフレームワーク内で直接トレーニングできることを示し、複雑なアーキテクチャの変更の必要性を排除します。
統合モデルのパフォーマンスをさらに向上させるために、(i) 理解エンコーダーと生成エンコーダーを切り離す、(ii) 統合トレーニング中にそれらの表現を調整するという 2 つの重要な戦略を採用します。
広範な実験により、JanusFlow は、標準ベンチマーク全体で既存の統合アプローチを大幅に上回りながら、それぞれのドメインで特殊なモデルと同等またはそれ以上のパフォーマンスを達成することが示されています。
この研究は、より効率的で多用途な視覚言語モデルへの一歩を表しています。
要約(オリジナル)
We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications. To further improve the performance of our unified model, we adopt two key strategies: (i) decoupling the understanding and generation encoders, and (ii) aligning their representations during unified training. Extensive experiments show that JanusFlow achieves comparable or superior performance to specialized models in their respective domains, while significantly outperforming existing unified approaches across standard benchmarks. This work represents a step toward more efficient and versatile vision-language models.
arxiv情報
著者 | Yiyang Ma,Xingchao Liu,Xiaokang Chen,Wen Liu,Chengyue Wu,Zhiyu Wu,Zizheng Pan,Zhenda Xie,Haowei Zhang,Xingkai yu,Liang Zhao,Yisong Wang,Jiaying Liu,Chong Ruan |
発行日 | 2024-11-12 17:55:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google