Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

要約

この作業では、以前の作品ヤヌスの高度なバージョンであるヤヌスプロを紹介します。
具体的には、Janus-Proには、(1)最適化されたトレーニング戦略、(2)トレーニングデータの拡張、(3)より大きなモデルサイズにスケーリングされています。
これらの改善により、Janus-Proは、マルチモーダルの理解とテキストからイメージまでの指導に従う能力の両方に大きな進歩を達成し、テキストから画像の生成の安定性を高めます。
この作業が、この分野でのさらなる調査を刺激することを願っています。
コードとモデルは公開されています。

要約(オリジナル)

In this work, we introduce Janus-Pro, an advanced version of the previous work Janus. Specifically, Janus-Pro incorporates (1) an optimized training strategy, (2) expanded training data, and (3) scaling to larger model size. With these improvements, Janus-Pro achieves significant advancements in both multimodal understanding and text-to-image instruction-following capabilities, while also enhancing the stability of text-to-image generation. We hope this work will inspire further exploration in the field. Code and models are publicly available.

arxiv情報

著者 Xiaokang Chen,Zhiyu Wu,Xingchao Liu,Zizheng Pan,Wen Liu,Zhenda Xie,Xingkai Yu,Chong Ruan
発行日 2025-01-29 18:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク