HairCLIPv2: Unifying Hair Editing via Proxy Feature Blending

要約

近年、ヘア編集は目覚ましい進歩を遂げています。
初期のヘア編集方法では、適切に描画されたスケッチまたはマスクを使用して編集条件を指定します。
このような対話モードは、非常にきめの細かいローカル制御を可能にしますが、言語の説明や参照画像によって簡単に指定できる編集条件に対しては非効率的です。
最近のクロスモーダル モデル (CLIP など) の進歩のおかげで、HairCLIP はテキストの説明や参照画像に基づいてヘア編集を可能にする最初の作品です。
ただし、このようなテキスト駆動および参照駆動のインタラクション モードでは、HairCLIP はスケッチまたはマスクによって指定されたきめの細かいコントロールをサポートできません。
この論文では、前述のすべての対話を 1 つの統一フレームワークでサポートすることを目的として、HairCLIPv2 を提案します。
同時に、無関係な属性 (身元、背景など) の保存と目に見えないテキストの説明のサポートが改善され、HairCLIP が改良されています。
重要なアイデアは、すべてのヘア編集タスクをヘア転送タスクに変換し、それに応じて編集条件を異なるプロキシに変換することです。
編集効果は、ヘアスタイルまたは髪の色の特徴空間内で対応するプロキシ特徴をブレンドすることによって、入力画像に追加されます。
前例のないユーザー インタラクション モードのサポートに加えて、定量的および定性的な実験により、編集効果、無関係な属性の保存、および視覚的な自然さの点で HairCLIPv2 の優位性が実証されています。
コードは \url{https://github.com/wty-ustc/HairCLIPv2} で入手できます。

要約(オリジナル)

Hair editing has made tremendous progress in recent years. Early hair editing methods use well-drawn sketches or masks to specify the editing conditions. Even though they can enable very fine-grained local control, such interaction modes are inefficient for the editing conditions that can be easily specified by language descriptions or reference images. Thanks to the recent breakthrough of cross-modal models (e.g., CLIP), HairCLIP is the first work that enables hair editing based on text descriptions or reference images. However, such text-driven and reference-driven interaction modes make HairCLIP unable to support fine-grained controls specified by sketch or mask. In this paper, we propose HairCLIPv2, aiming to support all the aforementioned interactions with one unified framework. Simultaneously, it improves upon HairCLIP with better irrelevant attributes (e.g., identity, background) preservation and unseen text descriptions support. The key idea is to convert all the hair editing tasks into hair transfer tasks, with editing conditions converted into different proxies accordingly. The editing effects are added upon the input image by blending the corresponding proxy features within the hairstyle or hair color feature spaces. Besides the unprecedented user interaction mode support, quantitative and qualitative experiments demonstrate the superiority of HairCLIPv2 in terms of editing effects, irrelevant attribute preservation and visual naturalness. Our code is available at \url{https://github.com/wty-ustc/HairCLIPv2}.

arxiv情報

著者 Tianyi Wei,Dongdong Chen,Wenbo Zhou,Jing Liao,Weiming Zhang,Gang Hua,Nenghai Yu
発行日 2023-10-16 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク