EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

要約

普及モデルのパーソナライゼーションにおける重要な成果が確認されています。
従来のチューニングフリーの手法では、注入条件として画像の埋め込みを平均することで複数の参照画像をエンコードすることがほとんどですが、このような画像に依存しない操作では画像間の相互作用を実行して、複数の参照内の一貫した視覚要素をキャプチャすることはできません。
調整ベースの低ランク適応 (LoRA) は、トレーニング プロセスを通じて複数の画像内の一貫した要素を効果的に抽出できますが、個別の画像グループごとに特定の微調整が必​​要です。
この文書では、複数の参照画像とテキスト プロンプトに基づいて拡散モデルを条件付けできる新しいプラグ アンド プレイ適応方法である EasyRef を紹介します。
複数の画像内の一貫した視覚要素を効果的に活用するために、マルチモーダル大規模言語モデル (MLLM) の複数画像の理解機能と指示に従う機能を活用し、指示に基づいて一貫した視覚要素をキャプチャするように促します。
さらに、アダプタを介して MLLM の表現を拡散プロセスに注入すると、目に見えない領域に簡単に一般化でき、目に見えないデータ内の一貫した視覚要素をマイニングできます。
計算コストを軽減し、きめ細かい詳細の保存を強化するために、効率的な参照集約戦略と進歩的なトレーニング スキームを導入します。
最後に、新しいマルチリファレンス画像生成ベンチマークである MRBench を紹介します。
実験結果は、EasyRef が IP アダプターのようなチューニング不要のメソッドと LoRA のようなチューニングベースのメソッドの両方を上回り、多様なドメインにわたって優れた美的品質と堅牢なゼロショット汎化を実現することを示しています。

要約(オリジナル)

Significant achievements in personalization of diffusion models have been witnessed. Conventional tuning-free methods mostly encode multiple reference images by averaging their image embeddings as the injection condition, but such an image-independent operation cannot perform interaction among images to capture consistent visual elements within multiple references. Although the tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent elements within multiple images through the training process, it necessitates specific finetuning for each distinct image group. This paper introduces EasyRef, a novel plug-and-play adaptation method that enables diffusion models to be conditioned on multiple reference images and the text prompt. To effectively exploit consistent visual elements within multiple images, we leverage the multi-image comprehension and instruction-following capabilities of the multimodal large language model (MLLM), prompting it to capture consistent visual elements based on the instruction. Besides, injecting the MLLM’s representations into the diffusion process through adapters can easily generalize to unseen domains, mining the consistent visual elements within unseen data. To mitigate computational costs and enhance fine-grained detail preservation, we introduce an efficient reference aggregation strategy and a progressive training scheme. Finally, we introduce MRBench, a new multi-reference image generation benchmark. Experimental results demonstrate EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based methods like LoRA, achieving superior aesthetic quality and robust zero-shot generalization across diverse domains.

arxiv情報

著者 Zhuofan Zong,Dongzhi Jiang,Bingqi Ma,Guanglu Song,Hao Shao,Dazhong Shen,Yu Liu,Hongsheng Li
発行日 2024-12-12 18:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク