ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

要約

拡散モデルは強力な生成テクノロジーとして登場し、さまざまなシナリオに適用できることがわかっています。
既存の基本的な拡散モデルのほとんどは、主にテキストガイドによるビジュアル生成用に設計されており、多くのビジュアル編集タスクに不可欠なマルチモーダル条件をサポートしていません。
この制限により、これらの基本的な拡散モデルは、自然言語処理分野における GPT-4 のような、視覚生成分野における統一モデルとして機能することができなくなります。
この研究では、幅広いビジュアル生成タスクにおいてこれらのエキスパート モデルと比較して同等のパフォーマンスを達成する、オールラウンド クリエーターおよびエディターである ACE を提案します。
この目標を達成するために、まずロングコンテキスト条件ユニット (LCU) と呼ばれる統一条件形式を導入し、LCU を入力として使用する新しい Transformer ベースの拡散モデルを提案します。これは、さまざまな生成および編集タスクにわたる共同トレーニングを目的としています。
さらに、利用可能なトレーニング データが存在しないという問題に対処するための効率的なデータ収集アプローチを提案します。
これには、合成ベースまたはクラスタリングベースのパイプラインを使用してペアごとの画像を取得し、微調整されたマルチモーダル大規模言語モデルを活用してこれらのペアに正確なテキスト命令を提供することが含まれます。
モデルのパフォーマンスを包括的に評価するために、さまざまなビジュアル生成タスクにわたって手動で注釈を付けたペア データのベンチマークを確立します。
広範な実験結果は、視覚生成分野における私たちのモデルの優位性を実証しています。
私たちのモデルのオールインワン機能のおかげで、バックエンドとして機能する単一のモデルを使用して画像作成の対話型リクエストに応答するマルチモーダル チャット システムを簡単に構築でき、ビジュアル ツールで通常使用される煩雑なパイプラインを回避できます。
エージェント。
コードとモデルはプロジェクト ページ: https://ali-vilab.github.io/ace-page/ で入手できます。

要約(オリジナル)

Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.

arxiv情報

著者 Zhen Han,Zeyinzi Jiang,Yulin Pan,Jingfeng Zhang,Chaojie Mao,Chenwei Xie,Yu Liu,Jingren Zhou
発行日 2024-11-05 12:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク