要約
生成モデルにより、自然言語を使用した直感的な画像の作成と操作が可能になりました。
特に最近の拡散モデルは自然な画像編集において顕著な成果を上げています。
この研究では、3D コンテンツ作成パイプラインの重要な部分である特定のクラスの画像であるテクスチャを編集するために拡散技術を適用することを提案します。
既存の編集方法を分析し、それらの一般的な基礎となるアプローチであるアテンション マップの操作がテクスチャ ドメインには適していないため、それらの編集方法がテクスチャに直接適用できないことを示します。
これに対処するために、代わりに CLIP 画像の埋め込みを操作して拡散生成を調整する新しいアプローチを提案します。
単純なテキストプロンプトを使用して編集方向を定義し(例:「経年劣化した木材」から「新しい木材」へ)、事前のテクスチャを使用してこれらを CLIP 画像埋め込み空間にマッピングします。サンプリングベースのアプローチにより、CLIP 空間でアイデンティティを保持した方向を提供します。
。
アイデンティティの保持をさらに改善するために、これらの方向を CLIP サブスペースに投影し、テクスチャ属性のもつれから生じるアイデンティティの変動を最小限に抑えます。
当社の編集パイプラインは、自然言語プロンプトのみを使用して任意のスライダーの作成を容易にし、グラウンドトゥルースの注釈付きデータは必要ありません。
要約(オリジナル)
Generative models have enabled intuitive image creation and manipulation using natural language. In particular, diffusion models have recently shown remarkable results for natural image editing. In this work, we propose to apply diffusion techniques to edit textures, a specific class of images that are an essential part of 3D content creation pipelines. We analyze existing editing methods and show that they are not directly applicable to textures, since their common underlying approach, manipulating attention maps, is unsuitable for the texture domain. To address this, we propose a novel approach that instead manipulates CLIP image embeddings to condition the diffusion generation. We define editing directions using simple text prompts (e.g., ‘aged wood’ to ‘new wood’) and map these to CLIP image embedding space using a texture prior, with a sampling-based approach that gives us identity-preserving directions in CLIP space. To further improve identity preservation, we project these directions to a CLIP subspace that minimizes identity variations resulting from entangled texture attributes. Our editing pipeline facilitates the creation of arbitrary sliders using natural language prompts only, with no ground-truth annotated data necessary.
arxiv情報
著者 | Julia Guerrero-Viu,Milos Hasan,Arthur Roullier,Midhun Harikumar,Yiwei Hu,Paul Guerrero,Diego Gutierrez,Belen Masia,Valentin Deschaintre |
発行日 | 2024-05-01 17:57:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google