Implicit Priors Editing in Stable Diffusion via Targeted Token Adjustment

要約

テキストから画像への生成タスクでは、特にテキストのプロンプトに十分なコンテキストが欠けている場合、暗黙の仮定と事前確率が必要になることがよくあります。
ただし、これらの仮定は、トレーニング データに組み込まれた時代遅れの概念、不正確さ、または社会的偏見を反映している場合があります。
我々は、無関係なオブジェクトの解釈や全体的なパフォーマンスに影響を与えることなく、モデル内の暗黙の仮定と事前分布を効率的に調整するように設計された方法である埋め込み専用編集 (Embedit) を紹介します。
暗黙の仮定 (例: バラは赤) を引き出す「ソース」プロンプト (例: 「バラ」) と、目的の属性 (例: 「青いバラ」) を指定する「宛先」プロンプトが与えられた場合、Embedit は微調整のみを行います。
SOTA である Stable Diffusion におけるテキスト エンコーダの最後の非表示状態を最適化するための、ターゲット オブジェクト (「rose」) のワード トークン埋め込み (WTE)
テキストから画像へのモデル。
この対象を絞った調整により、無関係なオブジェクトの WTE とモデルの重みが変更されないため、モデルのナレッジ ベース内の他のオブジェクトに対する意図しない影響が防止されます。
したがって、プロンプトに編集されたオブジェクトが含まれていない場合、すべての表現およびモデル出力は、元の編集されていないモデルのものと同一になります。
私たちの方法は非常に効率的であり、1 回の編集で Stable Diffusion 1.4 の場合は 768 個、XL の場合は 2048 個のパラメーターのみを変更し、それぞれのモデルの WTE 寸法に一致させます。
この最小限のスコープと迅速な実行の組み合わせにより、Embedit は実際のアプリケーションにとって非常に実用的になります。
さらに、元の WTE レイヤーを復元することで、変更を簡単に元に戻すことができます。
私たちの実験結果は、Embedit がさまざまなモデル、タスク、編集シナリオ (単一編集と連続した複数編集の両方) にわたって一貫して以前の方法より優れたパフォーマンスを示し、少なくとも 6.01% の改善 (87.17% から 93.18%) を達成したことを示しています。

要約(オリジナル)

Implicit assumptions and priors are often necessary in text-to-image generation tasks, especially when textual prompts lack sufficient context. However, these assumptions can sometimes reflect outdated concepts, inaccuracies, or societal bias embedded in the training data. We present Embedding-only Editing (Embedit), a method designed to efficiently adjust implict assumptions and priors in the model without affecting its interpretation of unrelated objects or overall performance. Given a ‘source’ prompt (e.g., ‘rose’) that elicits an implicit assumption (e.g., rose is red) and a ‘destination’ prompt that specifies the desired attribute (e.g., ‘blue rose’), Embedit fine-tunes only the word token embedding (WTE) of the target object (‘rose’) to optimize the last hidden state of text encoder in Stable Diffusion, a SOTA text-to-image model. This targeted adjustment prevents unintended effects on other objects in the model’s knowledge base, as the WTEs for unrelated objects and the model weights remain unchanged. Consequently, when a prompt does not contain the edited object, all representations, and the model outputs are identical to those of the original, unedited model. Our method is highly efficient, modifying only 768 parameters for Stable Diffusion 1.4 and 2048 for XL in a single edit, matching the WTE dimension of each respective model. This minimal scope, combined with rapid execution, makes Embedit highly practical for real-world applications. Additionally, changes are easily reversible by restoring the original WTE layers. Our experimental results demonstrate that Embedit consistently outperforms previous methods across various models, tasks, and editing scenarios (both single and sequential multiple edits), achieving at least a 6.01% improvement (from 87.17% to 93.18%).

arxiv情報

著者 Feng He,Chao Zhang,Zhixue Zhao
発行日 2024-12-04 15:31:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク