要約
さまざまな画像生成および編集タスクに取り組む命令ベースの拡散フレームワークである ACE++ について報告します。
FLUX.1-Fill-dev によって提案された修復タスクの入力形式に触発され、ACE で導入されたロングコンテキスト条件ユニット (LCU) が改善され、この入力パラダイムがあらゆる編集および生成タスクに拡張されます。
画像生成事前分布を最大限に活用するために、FLUX.1-dev のような強力なテキストから画像への拡散モデルを微調整する労力を最小限に抑える 2 段階のトレーニング スキームを開発しました。
最初の段階では、text-to-image モデルの 0-ref タスクを含むタスク データを使用してモデルを事前トレーニングします。
コミュニティには、この第 1 段階のトレーニング パラダイムを満たす、テキストから画像への基本モデルのポストトレーニングに基づいたモデルが多数あります。
たとえば、FLUX.1-Fill-dev は主にペイント タスクを処理し、トレーニング プロセスを加速するための初期化として使用できます。
第 2 段階では、ACE で定義されたすべてのタスクを使用して一般的な命令をサポートするために、上記のモデルを微調整します。
さまざまなシナリオでの ACE++ の広範な適用を促進するために、一般的な適用性と垂直シナリオでの適用性を考慮しながら、完全な微調整と軽量の微調整の両方をカバーする包括的なモデルのセットを提供します。
定性分析により、画質の生成と迅速な追従性の点で ACE++ の優位性が実証されました。
コードとモデルはプロジェクト ページ https://ali-vilab で入手できます。
github.io/ACE_plus_page/。
要約(オリジナル)
We report ACE++, an instruction-based diffusion framework that tackles various image generation and editing tasks. Inspired by the input format for the inpainting task proposed by FLUX.1-Fill-dev, we improve the Long-context Condition Unit (LCU) introduced in ACE and extend this input paradigm to any editing and generation tasks. To take full advantage of image generative priors, we develop a two-stage training scheme to minimize the efforts of finetuning powerful text-to-image diffusion models like FLUX.1-dev. In the first stage, we pre-train the model using task data with the 0-ref tasks from the text-to-image model. There are many models in the community based on the post-training of text-to-image foundational models that meet this training paradigm of the first stage. For example, FLUX.1-Fill-dev deals primarily with painting tasks and can be used as an initialization to accelerate the training process. In the second stage, we finetune the above model to support the general instructions using all tasks defined in ACE. To promote the widespread application of ACE++ in different scenarios, we provide a comprehensive set of models that cover both full finetuning and lightweight finetuning, while considering general applicability and applicability in vertical scenarios. The qualitative analysis showcases the superiority of ACE++ in terms of generating image quality and prompt following ability. Code and models will be available on the project page: https://ali-vilab. github.io/ACE_plus_page/.
arxiv情報
著者 | Chaojie Mao,Jingfeng Zhang,Yulin Pan,Zeyinzi Jiang,Zhen Han,Yu Liu,Jingren Zhou |
発行日 | 2025-01-15 13:07:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google