CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation

要約

近年、大規模拡散モデルはテキストから画像(T2I)生成において目覚ましい進歩を遂げている。これらのT2Iモデルにさらにきめ細かな空間制御を装備するために、ControlNetのようなアプローチは、条件画像に従うことを学習する追加ネットワークを導入する。しかし、ControlNetは、1つの条件タイプごとに、何百万ものデータペアに対して、何百GPU時間もかけて独立した学習を行う必要があり、これは非常に高価であり、一般ユーザーが新しい条件タイプを探索・開発することを困難にしている。この問題に対処するため、我々はCtrLoRAフレームワークを提案する。このフレームワークは、複数のベース条件から画像間生成の共通知識を学習するベースControlNetと、各条件の明確な特徴を捉える条件固有のLoRAを学習する。事前に学習されたベースControlNetを利用することで、ユーザは新しい条件に簡単に適応させることができ、ほとんどのシナリオで満足のいく結果を得るために必要なデータペアはわずか1,000個、シングルGPUの学習時間は1時間未満です。さらに、我々のCtrLoRAはControlNetと比較して、学習可能なパラメータを90%削減し、モデルの重みを分散して配置するための閾値を大幅に下げました。様々な条件下での広範な実験により、本手法の効率性と有効性が実証されました。コードとモデル重みはhttps://github.com/xyfJASON/ctrlora。

要約(オリジナル)

Recently, large-scale diffusion models have made impressive progress in text-to-image (T2I) generation. To further equip these T2I models with fine-grained spatial control, approaches like ControlNet introduce an extra network that learns to follow a condition image. However, for every single condition type, ControlNet requires independent training on millions of data pairs with hundreds of GPU hours, which is quite expensive and makes it challenging for ordinary users to explore and develop new types of conditions. To address this problem, we propose the CtrLoRA framework, which trains a Base ControlNet to learn the common knowledge of image-to-image generation from multiple base conditions, along with condition-specific LoRAs to capture distinct characteristics of each condition. Utilizing our pretrained Base ControlNet, users can easily adapt it to new conditions, requiring as few as 1,000 data pairs and less than one hour of single-GPU training to obtain satisfactory results in most scenarios. Moreover, our CtrLoRA reduces the learnable parameters by 90% compared to ControlNet, significantly lowering the threshold to distribute and deploy the model weights. Extensive experiments on various types of conditions demonstrate the efficiency and effectiveness of our method. Codes and model weights will be released at https://github.com/xyfJASON/ctrlora.

arxiv情報

著者 Yifeng Xu,Zhenliang He,Shiguang Shan,Xilin Chen
発行日 2025-03-03 12:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク