要約
このペーパーでは、画像条件を事前トレーニング済みの拡散変換 (DiT) モデルに統合する、汎用性が高くパラメーター効率の高いフレームワークである OminiControl を紹介します。
その中核となる OminiControl はパラメータ再利用メカニズムを活用し、DiT がそれ自体を強力なバックボーンとして使用して画像条件をエンコードし、柔軟なマルチモーダル アテンション プロセッサで処理できるようにします。
複雑なアーキテクチャを備えた追加のエンコーダ モジュールに大きく依存する既存の方法とは異なり、OminiControl は、(1) わずか 0.1% 程度の追加パラメータで、注入された画像条件を効果的かつ効率的に組み込み、(2) 統一された方法で広範囲の画像調整タスクに対処します。
これには、被写体主導の生成や、エッジ、深さなどの空間的に整列された条件が含まれます。
注目すべきことに、これらの機能は、DiT 自体によって生成された画像のトレーニングによって実現されており、これは特に被写体主導の生成に有益です。
広範な評価により、OminiControl は、サブジェクト駆動型および空間的に調整された条件付き生成の両方において、既存の UNet ベースおよび DiT に適応したモデルよりも優れていることが実証されています。
さらに、被験者一貫性のある生成の研究を進めるための効率的なデータ合成パイプラインとともに、200,000 枚を超える同一性一貫性のある画像の多様なコレクションであるトレーニング データセット Subjects200K をリリースします。
要約(オリジナル)
In this paper, we introduce OminiControl, a highly versatile and parameter-efficient framework that integrates image conditions into pre-trained Diffusion Transformer (DiT) models. At its core, OminiControl leverages a parameter reuse mechanism, enabling the DiT to encode image conditions using itself as a powerful backbone and process them with its flexible multi-modal attention processors. Unlike existing methods, which rely heavily on additional encoder modules with complex architectures, OminiControl (1) effectively and efficiently incorporates injected image conditions with only ~0.1% additional parameters, and (2) addresses a wide range of image conditioning tasks in a unified manner, including subject-driven generation and spatially-aligned conditions such as edges, depth, and more. Remarkably, these capabilities are achieved by training on images generated by the DiT itself, which is particularly beneficial for subject-driven generation. Extensive evaluations demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted models in both subject-driven and spatially-aligned conditional generation. Additionally, we release our training dataset, Subjects200K, a diverse collection of over 200,000 identity-consistent images, along with an efficient data synthesis pipeline to advance research in subject-consistent generation.
arxiv情報
著者 | Zhenxiong Tan,Songhua Liu,Xingyi Yang,Qiaochu Xue,Xinchao Wang |
発行日 | 2024-11-22 17:55:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google