A Neural Space-Time Representation for Text-to-Image Personalization

要約

テキストから画像へのパーソナライゼーション方法の重要な側面は、生成プロセス内でターゲットの概念がどのように表現されるかです。
この選択は、視覚的な忠実度、下流での編集可能性、学習した概念を保存するために必要なディスク容量に大きく影響します。
この論文では、ノイズ除去プロセスのタイムステップ (時間) とノイズ除去 U-Net 層 (空間) の両方に依存する新しいテキストコンディショニング空間を探索し、その魅力的な特性を紹介します。
時空表現における 1 つの概念は、時間と空間の組み合わせごとに 1 つずつ含まれる数百のベクトルで構成されているため、この空間を直接最適化することが困難になります。
代わりに、現在の時間と空間のパラメーターを受け取り、一致するトークンの埋め込みを出力する小さなニューラル マッパーを最適化することで、この空間内の概念を暗黙的に表現することを提案します。
そうすることで、パーソナライズされたコンセプト全体が学習されたマッパーのパラメーターによって表現され、コンパクトでありながら表現力豊かな表現が得られます。
他のパーソナライゼーション方法と同様に、ニューラル マッパーの出力はテキスト エンコーダーの入力スペースに存在します。
テキスト バイパスを導入すると、ニューラル マッパーがテキスト エンコーダーの出力に追加される残差を追加出力することで、概念の収束と視覚的な忠実度が大幅に向上することがわかります。
最後に、暗黙的表現に重要度に基づいた順序付けを課し、単一のトレーニング済みモデルを使用して学習した概念の再構成と編集可能性をユーザーが制御できるようにする方法を示します。
さまざまな概念やプロンプトに対するアプローチの有効性を実証し、生成モデル自体のパラメーターを微調整することなく、高品質で制御可能な構成を生成するこの方法の能力を示します。

要約(オリジナル)

A key aspect of text-to-image personalization methods is the manner in which the target concept is represented within the generative process. This choice greatly affects the visual fidelity, downstream editability, and disk space needed to store the learned concept. In this paper, we explore a new text-conditioning space that is dependent on both the denoising process timestep (time) and the denoising U-Net layers (space) and showcase its compelling properties. A single concept in the space-time representation is composed of hundreds of vectors, one for each combination of time and space, making this space challenging to optimize directly. Instead, we propose to implicitly represent a concept in this space by optimizing a small neural mapper that receives the current time and space parameters and outputs the matching token embedding. In doing so, the entire personalized concept is represented by the parameters of the learned mapper, resulting in a compact, yet expressive, representation. Similarly to other personalization methods, the output of our neural mapper resides in the input space of the text encoder. We observe that one can significantly improve the convergence and visual fidelity of the concept by introducing a textual bypass, where our neural mapper additionally outputs a residual that is added to the output of the text encoder. Finally, we show how one can impose an importance-based ordering over our implicit representation, providing users control over the reconstruction and editability of the learned concept using a single trained model. We demonstrate the effectiveness of our approach over a range of concepts and prompts, showing our method’s ability to generate high-quality and controllable compositions without fine-tuning any parameters of the generative model itself.

arxiv情報

著者 Yuval Alaluf,Elad Richardson,Gal Metzer,Daniel Cohen-Or
発行日 2023-05-24 17:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク