AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection

要約

テキストから画像へのベースのオブジェクトのカスタマイズは、テキスト プロンプトと参照画像に従って対象オブジェクトと同じ ID (ID) を持つ画像を生成することを目的としており、大幅な進歩を遂げています。
しかし、最近のカスタマイズ研究は人間によるカスタマイズや仮想試着などの特殊なタスクが主流となっており、一般的なオブジェクトのカスタマイズには空白が残されています。
この目的を達成するために、高い ID 忠実度と柔軟なテキスト編集機能を備えた一般オブジェクトを生成できる革新的なゼロショット オブジェクト カスタマイズ フレームワークである AnyMaker を紹介します。
AnyMaker の有効性は、その新しい汎用 ID 抽出、デュアルレベル ID インジェクション、および ID を意識したデカップリングに由来します。
具体的には、一般 ID 抽出モジュールは、一般オブジェクトのさまざまなカスタマイズ タスクに取り組むために、自己教師ありモデルのアンサンブルを使用して十分な ID 情報を抽出します。
次に、生成プロセスでのテキストの編集可能性を損なうことなく、抽出された ID を拡散 UNet に提供するために、グローバルレベルのセマンティック ID がテキスト記述に挿入される、グローバル – ローカルのデュアルレベル ID 挿入モジュールを設計します。
一方、ローカルレベルの ID の詳細は、新しく追加されたクロスアテンション モジュールを通じてモデルに直接注入されます。
さらに、ID とテキスト記述の両方を高忠実度に生成するために、抽出された表現内の非 ID 要素から ID 関連情報を分離する ID 認識デカップリング モジュールを提案します。
私たちのアプローチを検証し、一般オブジェクトのカスタマイズの研究を促進するために、315,000 個のテキスト画像サンプルと 10,000 個のカテゴリを含む、最初の大規模な一般 ID データセットである Multi-Category ID-Consistent (MC-IDC) データセットを作成しました。
実験によると、AnyMaker は一般的なオブジェクトのカスタマイズで顕著なパフォーマンスを示し、対応するタスクでは特殊なメソッドよりも優れたパフォーマンスを発揮します。
コードとデータセットは近日中にリリースされる予定です。

要約(オリジナル)

Text-to-image based object customization, aiming to generate images with the same identity (ID) as objects of interest in accordance with text prompts and reference images, has made significant progress. However, recent customizing research is dominated by specialized tasks, such as human customization or virtual try-on, leaving a gap in general object customization. To this end, we introduce AnyMaker, an innovative zero-shot object customization framework capable of generating general objects with high ID fidelity and flexible text editability. The efficacy of AnyMaker stems from its novel general ID extraction, dual-level ID injection, and ID-aware decoupling. Specifically, the general ID extraction module extracts sufficient ID information with an ensemble of self-supervised models to tackle the diverse customization tasks for general objects. Then, to provide the diffusion UNet with the extracted ID as much while not damaging the text editability in the generation process, we design a global-local dual-level ID injection module, in which the global-level semantic ID is injected into text descriptions while the local-level ID details are injected directly into the model through newly added cross-attention modules. In addition, we propose an ID-aware decoupling module to disentangle ID-related information from non-ID elements in the extracted representations for high-fidelity generation of both identity and text descriptions. To validate our approach and boost the research of general object customization, we create the first large-scale general ID dataset, Multi-Category ID-Consistent (MC-IDC) dataset, with 315k text-image samples and 10k categories. Experiments show that AnyMaker presents remarkable performance in general object customization and outperforms specialized methods in corresponding tasks. Code and dataset will be released soon.

arxiv情報

著者 Lingjie Kong,Kai Wu,Xiaobin Hu,Wenhui Han,Jinlong Peng,Chengming Xu,Donghao Luo,Jiangning Zhang,Chengjie Wang,Yanwei Fu
発行日 2024-06-17 15:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク