CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing

要約

研究者たちは最近、実際の画像編集に StyleGAN ベースのモデルの使用を検討し始めました。
特に興味深いアプリケーションの 1 つは、自然言語記述を使用して編集プロセスをガイドすることです。
言語を使用して画像を編集するための既存のアプローチは、インスタンスレベルの潜在コードの最適化に頼るか、事前定義されたテキストプロンプトを潜在空間内のいくつかの編集方向にマップします。
ただし、これらのアプローチには固有の制限があります。
前者はあまり効率的ではありませんが、後者は複数の属性の変更を効果的に処理するのに苦労することがよくあります。
これらの弱点に対処するために、複数の属性の変更を効率的かつ確実に実行できる新しいテキスト駆動型の画像編集アプローチである CLIPInverter を紹介します。
私たちの手法の中核は、事前学習された GAN 逆変換ネットワークに統合された、新しい軽量のテキスト条件付きアダプター層の使用です。
ターゲット記述の CLIP 埋め込みで最初の反転ステップを条件付けすることにより、より成功した編集指示を取得できることを示します。
さらに、CLIP ガイド付きの調整ステップを使用して、結果として生じる残留潜在コードを修正します。これにより、テキスト プロンプトとの整合性がさらに向上します。
定性的および定量的な結果が示すように、私たちの方法は、人間の顔、猫、鳥を含むさまざまな領域での操作精度とフォトリアリズムの点で、競合するアプローチよりも優れています。

要約(オリジナル)

Researchers have recently begun exploring the use of StyleGAN-based models for real image editing. One particularly interesting application is using natural language descriptions to guide the editing process. Existing approaches for editing images using language either resort to instance-level latent code optimization or map predefined text prompts to some editing directions in the latent space. However, these approaches have inherent limitations. The former is not very efficient, while the latter often struggles to effectively handle multi-attribute changes. To address these weaknesses, we present CLIPInverter, a new text-driven image editing approach that is able to efficiently and reliably perform multi-attribute changes. The core of our method is the use of novel, lightweight text-conditioned adapter layers integrated into pretrained GAN-inversion networks. We demonstrate that by conditioning the initial inversion step on the CLIP embedding of the target description, we are able to obtain more successful edit directions. Additionally, we use a CLIP-guided refinement step to make corrections in the resulting residual latent codes, which further improves the alignment with the text prompt. Our method outperforms competing approaches in terms of manipulation accuracy and photo-realism on various domains including human faces, cats, and birds, as shown by our qualitative and quantitative results.

arxiv情報

著者 Ahmet Canberk Baykal,Abdul Basit Annes,Duygu Ceylan,Erkut Erdem,Aykut Erdem,Deniz Yurt
発行日 2023-07-17 11:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク