要約
この作業では、以前の作品ヤヌスの高度なバージョンであるヤヌスプロを紹介します。
具体的には、Janus-Proには、(1)最適化されたトレーニング戦略、(2)トレーニングデータの拡張、(3)より大きなモデルサイズにスケーリングされています。
これらの改善により、Janus-Proは、マルチモーダルの理解とテキストからイメージまでの指導に従う能力の両方に大きな進歩を達成し、テキストから画像の生成の安定性を高めます。
この作業が、この分野でのさらなる調査を刺激することを願っています。
コードとモデルは公開されています。
要約(オリジナル)
In this work, we introduce Janus-Pro, an advanced version of the previous work Janus. Specifically, Janus-Pro incorporates (1) an optimized training strategy, (2) expanded training data, and (3) scaling to larger model size. With these improvements, Janus-Pro achieves significant advancements in both multimodal understanding and text-to-image instruction-following capabilities, while also enhancing the stability of text-to-image generation. We hope this work will inspire further exploration in the field. Code and models are publicly available.
arxiv情報
著者 | Xiaokang Chen,Zhiyu Wu,Xingchao Liu,Zizheng Pan,Wen Liu,Zhenda Xie,Xingkai Yu,Chong Ruan |
発行日 | 2025-01-29 18:00:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google