Cross-Image Attention for Zero-Shot Appearance Transfer

要約

テキストから画像への生成モデルにおける最近の進歩は、画像の深い意味理解を捉える驚くべき能力を実証している。本研究では、この意味的知識を活用し、類似した意味を共有するが形状が大きく異なる可能性のあるオブジェクト間の視覚的外観を伝達する。これを実現するために、我々はこれらの生成モデルの自己注意層を基礎とし、画像間の意味的対応を暗黙的に確立する画像横断的注意メカニズムを導入する。具体的には、一対の画像–一方は目標とする構造を描き、もう一方は望ましい外観を指定する–が与えられたとき、我々のクロスイメージ注意は、構造画像に対応するクエリを、外観画像のキーと値に結合する。この操作は、ノイズ除去処理中に適用されると、確立された意味的対応を活用して、所望の構造と外観を組み合わせた画像を生成する。さらに、出力画像の品質を向上させるために、ノイズの多い潜在コードまたはモデルの内部表現をノイズ除去プロセスを通して操作する3つのメカニズムを利用する。重要なことは、我々のアプローチはゼロショットであり、最適化やトレーニングを必要としないことである。実験によれば、我々の手法は幅広いオブジェクトカテゴリに有効であり、2つの入力画像間の形状、サイズ、視点の変化に頑健である。

要約(オリジナル)

Recent advancements in text-to-image generative models have demonstrated a remarkable ability to capture a deep semantic understanding of images. In this work, we leverage this semantic knowledge to transfer the visual appearance between objects that share similar semantics but may differ significantly in shape. To achieve this, we build upon the self-attention layers of these generative models and introduce a cross-image attention mechanism that implicitly establishes semantic correspondences across images. Specifically, given a pair of images — one depicting the target structure and the other specifying the desired appearance — our cross-image attention combines the queries corresponding to the structure image with the keys and values of the appearance image. This operation, when applied during the denoising process, leverages the established semantic correspondences to generate an image combining the desired structure and appearance. In addition, to improve the output image quality, we harness three mechanisms that either manipulate the noisy latent codes or the model’s internal representations throughout the denoising process. Importantly, our approach is zero-shot, requiring no optimization or training. Experiments show that our method is effective across a wide range of object categories and is robust to variations in shape, size, and viewpoint between the two input images.

arxiv情報

著者 Yuval Alaluf,Daniel Garibi,Or Patashnik,Hadar Averbuch-Elor,Daniel Cohen-Or
発行日 2023-11-06 18:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク