Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

要約

近年、テキスト指示による画像編集において大きな成果が得られています。
これらのエディタを動的シーン編集に適用すると、これらの 2D エディタのフレームごとの性質により、新しいスタイルのシーンは時間的に一貫性がなくなる傾向があります。
この問題に取り組むために、私たちは、高忠実度で時間的に一貫した 4D ポートレート編集のための新しいアプローチである Control4D を提案します。
Control4D は、2D 拡散ベースのエディタを使用した効率的な 4D 表現に基づいて構築されています。
エディターからの直接監視を使用する代わりに、私たちのメソッドはそこから 4D GAN を学習し、一貫性のない監視信号を回避します。
具体的には、編集画像に基づいて識別器を用いて世代分布を学習し、識別信号で生成器を更新します。
より安定したトレーニングを行うために、編集された画像からマルチレベル情報が抽出され、ジェネレーターの学習を促進するために使用されます。
実験結果は、Control4D が以前のアプローチを上回り、より写真のようにリアルで一貫した 4D 編集パフォーマンスを実現することを示しています。
私たちのプロジェクト Web サイトへのリンクは https://control4darxiv.github.io です。

要約(オリジナル)

Recent years have witnessed considerable achievements in editing images with text instructions. When applying these editors to dynamic scene editing, the new-style scene tends to be temporally inconsistent due to the frame-by-frame nature of these 2D editors. To tackle this issue, we propose Control4D, a novel approach for high-fidelity and temporally consistent 4D portrait editing. Control4D is built upon an efficient 4D representation with a 2D diffusion-based editor. Instead of using direct supervisions from the editor, our method learns a 4D GAN from it and avoids the inconsistent supervision signals. Specifically, we employ a discriminator to learn the generation distribution based on the edited images and then update the generator with the discrimination signals. For more stable training, multi-level information is extracted from the edited images and used to facilitate the learning of the generator. Experimental results show that Control4D surpasses previous approaches and achieves more photo-realistic and consistent 4D editing performances. The link to our project website is https://control4darxiv.github.io.

arxiv情報

著者 Ruizhi Shao,Jingxiang Sun,Cheng Peng,Zerong Zheng,Boyao Zhou,Hongwen Zhang,Yebin Liu
発行日 2023-05-31 17:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク