RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control

要約

私たちは、トレーニング不要の拡散モデルのパーソナライゼーションのための新しいプラグアンドプレイ ソリューションである Reference-Based Modulation (RB-Modulation) を提案します。
既存のトレーニング不要のアプローチでは、(a) 追加のスタイルまたはコンテンツのテキスト記述がない場合の参照画像からのスタイル抽出、(b) 参照スタイル画像からの不要なコンテンツの漏洩、および (c) スタイルとコンテンツの効果的な構成において困難が生じます。
RB-Modulation は、スタイル記述子が端末コストを通じて必要な属性をエンコードする新しい確率的最適コントローラーに基づいて構築されています。
結果として得られるドリフトは、上記の問題を克服するだけでなく、参照スタイルへの高い忠実性を保証し、指定されたテキスト プロンプトに準拠します。
また、RB-Modulation が参照画像からコンテンツとスタイルを切り離すことを可能にする、クロスアテンションベースの特徴集約スキームも導入します。
理論的根拠と経験的証拠に基づいて、私たちのフレームワークはトレーニング不要の方法でコンテンツとスタイルの正確な抽出と制御を実証します。
さらに、私たちの方法により、コンテンツとスタイルのシームレスな構成が可能になり、外部アダプターや ControlNet への依存からの脱却が可能になります。

要約(オリジナル)

We propose Reference-Based Modulation (RB-Modulation), a new plug-and-play solution for training-free personalization of diffusion models. Existing training-free approaches exhibit difficulties in (a) style extraction from reference images in the absence of additional style or content text descriptions, (b) unwanted content leakage from reference style images, and (c) effective composition of style and content. RB-Modulation is built on a novel stochastic optimal controller where a style descriptor encodes the desired attributes through a terminal cost. The resulting drift not only overcomes the difficulties above, but also ensures high fidelity to the reference style and adheres to the given text prompt. We also introduce a cross-attention-based feature aggregation scheme that allows RB-Modulation to decouple content and style from the reference image. With theoretical justification and empirical evidence, our framework demonstrates precise extraction and control of content and style in a training-free manner. Further, our method allows a seamless composition of content and style, which marks a departure from the dependency on external adapters or ControlNets.

arxiv情報

著者 Litu Rout,Yujia Chen,Nataniel Ruiz,Abhishek Kumar,Constantine Caramanis,Sanjay Shakkottai,Wen-Sheng Chu
発行日 2024-05-27 17:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク