要約
拡散ベースの画像合成は最近、広範囲にわたる注目を集めています。
特に、画像ベースのプロンプトを使用するControlNetは、Canny Edge Detectionなどの画像タスクに強力な機能を示し、これらのプロンプトと整合した画像を生成します。
ただし、Vanilla ControlNetは通常、単一のタスクに対して望ましい制御を実現するために、約5000ステップの広範なトレーニングが必要です。
最近のコンテキスト学習アプローチは、その適応性を改善しましたが、主にエッジベースのタスク用に、ペアの例に依存しています。
したがって、コントロールネットの可能性を最大限に発揮するために、2つの重要なオープンな問題にはまだ対処されていません:(i)特定のタスクのゼロショット制御と(ii)非エッジベースのタスクのより速い適応。
このホワイトペーパーでは、タスクに依存しないメタ学習手法を採用し、新しいレイヤーフリージングデザインを特徴とする新しいMeta Controlnetメソッドを紹介します。
メタコントロールネットは、5000から1000に制御能力を達成するための学習ステップを大幅に削減します。さらに、メタコントロールネットは、微調ューせずにエッジベースのタスクで直接ゼロショット適応性を示し、既存のすべての方法を上回る人間のポーズなどのより複雑な非エッジタスクで100個の微調整ステップでのみ制御を達成します。
コードはhttps://github.com/junjieyang97/meta-controlnetで入手できます。
要約(オリジナル)
Diffusion-based image synthesis has attracted extensive attention recently. In particular, ControlNet that uses image-based prompts exhibits powerful capability in image tasks such as canny edge detection and generates images well aligned with these prompts. However, vanilla ControlNet generally requires extensive training of around 5000 steps to achieve a desirable control for a single task. Recent context-learning approaches have improved its adaptability, but mainly for edge-based tasks, and rely on paired examples. Thus, two important open issues are yet to be addressed to reach the full potential of ControlNet: (i) zero-shot control for certain tasks and (ii) faster adaptation for non-edge-based tasks. In this paper, we introduce a novel Meta ControlNet method, which adopts the task-agnostic meta learning technique and features a new layer freezing design. Meta ControlNet significantly reduces learning steps to attain control ability from 5000 to 1000. Further, Meta ControlNet exhibits direct zero-shot adaptability in edge-based tasks without any finetuning, and achieves control within only 100 finetuning steps in more complex non-edge tasks such as Human Pose, outperforming all existing methods. The codes is available in https://github.com/JunjieYang97/Meta-ControlNet.
arxiv情報
著者 | Junjie Yang,Jinze Zhao,Peihao Wang,Zhangyang Wang,Yingbin Liang |
発行日 | 2025-04-02 16:43:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google