要約
テキスト・トゥ・イメージに基づくオブジェクト・カスタマイゼーションは、テキスト・プロンプトと参照画像に従って、関心のあるオブジェクトと同じアイデンティティ(ID)を持つ画像を生成することを目的としており、大きな進歩を遂げている。しかし、最近のカスタマイズ研究は、人間によるカスタマイズや仮想試着などの特殊なタスクが主流であり、一般的なオブジェクトのカスタマイズにはギャップが残されている。この目的のために、我々は、高いID忠実度と柔軟なテキスト編集可能性を持つ一般的なオブジェクトを生成することができる革新的なゼロショットオブジェクトカスタマイゼーションフレームワークであるAnyMakerを紹介します。AnyMakerの有効性は、その斬新な一般ID抽出、デュアルレベルID注入、およびIDを意識したデカップリングに起因します。具体的には、一般ID抽出モジュールは、一般オブジェクトの多様なカスタマイズタスクに取り組むために、自己教師モデルのアンサンブルで十分なID情報を抽出します。次に、抽出されたIDを拡散UNetにできるだけ提供しつつ、生成プロセスにおけるテキスト編集性を損なわないように、グローバル-ローカル二重レベルID注入モジュールを設計する。このモジュールでは、グローバルレベルの意味IDをテキスト記述に注入する一方、ローカルレベルのID詳細は、新たに追加されたクロスアテンションモジュールを通じてモデルに直接注入される。さらに、ID記述とテキスト記述の両方を忠実に生成するために、抽出された表現中の非ID要素からID関連情報を切り離す、IDを意識した切り離しモジュールを提案する。我々のアプローチを検証し、一般的なオブジェクトのカスタマイズの研究を促進するために、我々は315kのテキスト-画像サンプルと10kのカテゴリを持つ最初の大規模な一般的なIDデータセット、Multi-Category ID-Consistent (MC-IDC)データセットを作成します。実験によると、AnyMakerは一般的なオブジェクトのカスタマイズで顕著なパフォーマンスを示し、対応するタスクで特化した手法よりも優れています。コードとデータセットは近日公開予定です。
要約(オリジナル)
Text-to-image based object customization, aiming to generate images with the same identity (ID) as objects of interest in accordance with text prompts and reference images, has made significant progress. However, recent customizing research is dominated by specialized tasks, such as human customization or virtual try-on, leaving a gap in general object customization. To this end, we introduce AnyMaker, an innovative zero-shot object customization framework capable of generating general objects with high ID fidelity and flexible text editability. The efficacy of AnyMaker stems from its novel general ID extraction, dual-level ID injection, and ID-aware decoupling. Specifically, the general ID extraction module extracts sufficient ID information with an ensemble of self-supervised models to tackle the diverse customization tasks for general objects. Then, to provide the diffusion UNet with the extracted ID as much while not damaging the text editability in the generation process, we design a global-local dual-level ID injection module, in which the global-level semantic ID is injected into text descriptions while the local-level ID details are injected directly into the model through newly added cross-attention modules. In addition, we propose an ID-aware decoupling module to disentangle ID-related information from non-ID elements in the extracted representations for high-fidelity generation of both identity and text descriptions. To validate our approach and boost the research of general object customization, we create the first large-scale general ID dataset, Multi-Category ID-Consistent (MC-IDC) dataset, with 315k text-image samples and 10k categories. Experiments show that AnyMaker presents remarkable performance in general object customization and outperforms specialized methods in corresponding tasks. Code and dataset will be released soon.
arxiv情報
著者 | Lingjie Kong,Kai Wu,Xiaobin Hu,Wenhui Han,Jinlong Peng,Chengming Xu,Donghao Luo,Jiangning Zhang,Chengjie Wang,Yanwei Fu |
発行日 | 2024-07-05 13:10:51+00:00 |
arxivサイト | arxiv_id(pdf) |