Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model

要約

ControlNet は、深度マップ、落書き/スケッチ、人間のポーズなど、さまざまな条件でテキストから画像への拡散モデルに空間制御を追加するために広く使用されています。
ただし、制御可能なビデオ生成に関しては、機能空間の不一致のため ControlNet を新しいバックボーンに直接統合することはできず、新しいバックボーン用の ControlNet のトレーニングは多くのユーザーにとって大きな負担となる可能性があります。
さらに、ControlNet を異なるフレームに個別に適用すると、オブジェクトの時間的一貫性を効果的に維持できなくなります。
これらの課題に対処するために、事前トレーニングされた ControlNet の適応を通じてあらゆる画像/ビデオ拡散モデルに多様なコントロールを追加する効率的で多用途のフレームワークである Ctrl-Adapter を導入します。
Ctrl-Adapter は、画像とビデオの制御、まばらなフレームのビデオ制御、きめの細かいパッチレベルのマルチ条件制御 (MoE ルーター経由)、目に見えない条件へのゼロショット適応などの強力で多様な機能を提供し、さまざまな機能をサポートします。
ビデオ編集、ビデオ スタイル転送、テキスト ガイド付きモーション コントロールなど、空間制御を超えた下流タスクの実行。
6 つの多様な U-Net/DiT ベースの画像/ビデオ拡散モデル (SDXL、PixArt-$\alpha$、I2VGen-XL、SVD、Latte、Hotshot-XL) を備えた Ctrl-Adapter は、COCO 上の事前トレーニング済み ControlNet のパフォーマンスと一致し、
大幅に少ない計算量 (< 10 GPU 時間) で DAVIS 2017 の最先端を実現します。

要約(オリジナル)

ControlNets are widely used for adding spatial control to text-to-image diffusion models with different conditions, such as depth maps, scribbles/sketches, and human poses. However, when it comes to controllable video generation, ControlNets cannot be directly integrated into new backbones due to feature space mismatches, and training ControlNets for new backbones can be a significant burden for many users. Furthermore, applying ControlNets independently to different frames cannot effectively maintain object temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion model through the adaptation of pretrained ControlNets. Ctrl-Adapter offers strong and diverse capabilities, including image and video control, sparse-frame video control, fine-grained patch-level multi-condition control (via an MoE router), zero-shot adaptation to unseen conditions, and supports a variety of downstream tasks beyond spatial control, including video editing, video style transfer, and text-guided motion control. With six diverse U-Net/DiT-based image/video diffusion models (SDXL, PixArt-$\alpha$, I2VGen-XL, SVD, Latte, Hotshot-XL), Ctrl-Adapter matches the performance of pretrained ControlNets on COCO and achieves the state-of-the-art on DAVIS 2017 with significantly lower computation (< 10 GPU hours).

arxiv情報

著者 Han Lin,Jaemin Cho,Abhay Zala,Mohit Bansal
発行日 2024-05-24 16:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク