要約
最近、画像のカスタマイズに関する広範な研究(例:アイデンティティ、主題、スタイル、背景など)は、大規模な生成モデルの強力なカスタマイズ機能を示しています。
ただし、ほとんどのアプローチは特定のタスク向けに設計されており、さまざまなタイプの状態を組み合わせて一般化可能性を制限します。
画像のカスタマイズのための統一されたフレームワークを開発することは、依然としてオープンな課題です。
このペーパーでは、複数の条件のシームレスな統合を促進しながら、幅広いタスクをサポートするように設計された画像カスタマイズフレームワークであるDreamoを紹介します。
具体的には、Dreamoは拡散トランス(DIT)フレームワークを利用して、さまざまなタイプの入力を均一に処理します。
トレーニング中に、さまざまなカスタマイズタスクを含む大規模なトレーニングデータセットを構築し、参照画像からの関連情報の正確なクエリを促進するための機能ルーティング制約を導入します。
さらに、特定のプレースホルダーを特定の位置で条件に関連付けるプレースホルダー戦略を設計し、生成された結果の条件の配置を制御できるようにします。
さらに、3つの段階で構成される進歩的なトレーニング戦略を採用しています。ベースラインの一貫性を確立するための限られたデータを持つ単純なタスクに焦点を当てた初期段階、カスタマイズ機能を包括的に強化するための本格的なトレーニング段階、および低品質データによって導入された品質バイアスを修正するための最終的な品質アライメント段階。
広範な実験は、提案されたDreamoが高品質のさまざまな画像カスタマイズタスクを効果的に実行し、さまざまな種類の制御条件を柔軟に統合できることを示しています。
要約(オリジナル)
Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.
arxiv情報
著者 | Chong Mou,Yanze Wu,Wenxu Wu,Zinan Guo,Pengze Zhang,Yufeng Cheng,Yiming Luo,Fei Ding,Shiwen Zhang,Xinghui Li,Mengtian Li,Songtao Zhao,Jian Zhang,Qian He,Xinglong Wu |
発行日 | 2025-04-23 17:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google