Seedream 3.0 Technical Report

要約

中国と英語の高性能バイリンガルイメージジェネレーションファンデーションモデルであるSeedReam 3.0を紹介します。
複雑なプロンプトとのアラインメント、きめの細かいタイポグラフィの生成、最適ではない視覚美学と忠実度、限られた画像解像度を含む、Seedream 2.0の既存の課題に対処するためのいくつかの技術的改善を開発します。
具体的には、SeedReam 3.0の進歩は、データ構築からモデルの展開まで、パイプライン全体の改善に起因しています。
データ層では、欠陥認識トレーニングパラダイムとデュアル軸共同データサンプリングフレームワークを使用して、データセットを2倍にします。
さらに、混合解像度トレーニング、クロスモダリティロープ、表現アライメント損失、およびトレーニング前の段階での解像度認識のタイムステップサンプリングなど、いくつかの効果的な手法を採用しています。
トレーニング後の段階では、SFTの多様な審美的なキャプションと、スケーリングを備えたVLMベースの報酬モデルを利用して、人間の好みとよく整合する出力を実現します。
さらに、SeedReam 3.0 Pioneers新しい加速パラダイム。
一貫したノイズの期待と重要性の高いタイムステップサンプリングを採用することにより、画質を維持しながら4〜8倍のスピードアップを達成します。
SeedReam 3.0は、SeedReam 2.0よりも大幅な改善を示しています。特に、専門のタイポグラフィ生成にとって重要な複雑な漢字でのテキストレンダリングの全体的な機能が向上します。
さらに、ネイティブの高解像度の出力(最大2K)を提供し、視覚品質の高い画像を生成できるようにします。

要約(オリジナル)

We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained typography generation, suboptimal visual aesthetics and fidelity, and limited image resolutions. Specifically, the advancements of Seedream 3.0 stem from improvements across the entire pipeline, from data construction to model deployment. At the data stratum, we double the dataset using a defect-aware training paradigm and a dual-axis collaborative data-sampling framework. Furthermore, we adopt several effective techniques such as mixed-resolution training, cross-modality RoPE, representation alignment loss, and resolution-aware timestep sampling in the pre-training phase. During the post-training stage, we utilize diversified aesthetic captions in SFT, and a VLM-based reward model with scaling, thereby achieving outputs that well align with human preferences. Furthermore, Seedream 3.0 pioneers a novel acceleration paradigm. By employing consistent noise expectation and importance-aware timestep sampling, we achieve a 4 to 8 times speedup while maintaining image quality. Seedream 3.0 demonstrates significant improvements over Seedream 2.0: it enhances overall capabilities, in particular for text-rendering in complicated Chinese characters which is important to professional typography generation. In addition, it provides native high-resolution output (up to 2K), allowing it to generate images with high visual quality.

arxiv情報

著者 Yu Gao,Lixue Gong,Qiushan Guo,Xiaoxia Hou,Zhichao Lai,Fanshi Li,Liang Li,Xiaochen Lian,Chao Liao,Liyang Liu,Wei Liu,Yichun Shi,Shiqi Sun,Yu Tian,Zhi Tian,Peng Wang,Rui Wang,Xuanda Wang,Xun Wang,Ye Wang,Guofeng Wu,Jie Wu,Xin Xia,Xuefeng Xiao,Zhonghua Zhai,Xinyu Zhang,Qi Zhang,Yuwei Zhang,Shijia Zhao,Jianchao Yang,Weilin Huang
発行日 2025-04-15 16:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク