Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner

要約

ピクセルレベルのきめの細かい画像編集は依然として未解決の課題です。
以前の研究では、制御の粒度と推論速度の間の理想的なトレードオフを達成できませんでした。
ピクセルレベルのきめ細かい制御を実現できないか、推論速度の最適化が必要です。
これに対処するために、この論文では初めて回帰ベースのネットワークを使用して、画像のドラッグプロセス中の StyleGAN 潜在コードの変動パターンを学習しました。
この方法により、ほとんど時間をかけずにピクセルレベルの精度でドラッグ編集が可能になります。
ユーザーは GAN で生成された画像上でハンドル ポイントとそれに対応するターゲット ポイントを指定でき、私たちのメソッドは各ハンドル ポイントを対応するターゲット ポイントに移動します。
実験的な分析を通じて、モデルはピクセルのごく一部の動きを予測するだけでよいため、ハンドル ポイントからターゲット ポイントまでの移動距離が短いと、忠実度の高い編集画像が生成されることがわかりました。
これを達成するために、移動プロセス全体を複数のサブプロセスに分解します。
具体的には、ハンドルポイントからターゲットポイントまでの潜在コードの動きの軌跡を自己回帰的に予測する、「Latent Predictor」という名前のトランスフォーマーエンコーダー/デコーダーベースのネットワークを開発します。
さらに、予測の安定性を高めるために、自然画像の分布内で潜在コードの動きを制限することを目的とした「Latent Regularizer」というコンポーネントを導入しました。
広範な実験により、私たちの方法がピクセルレベルの粒度で最先端 (SOTA) の推論速度と画像編集パフォーマンスを達成できることが実証されました。

要約(オリジナル)

Pixel-level fine-grained image editing remains an open challenge. Previous works fail to achieve an ideal trade-off between control granularity and inference speed. They either fail to achieve pixel-level fine-grained control, or their inference speed requires optimization. To address this, this paper for the first time employs a regression-based network to learn the variation patterns of StyleGAN latent codes during the image dragging process. This method enables pixel-level precision in dragging editing with little time cost. Users can specify handle points and their corresponding target points on any GAN-generated images, and our method will move each handle point to its corresponding target point. Through experimental analysis, we discover that a short movement distance from handle points to target points yields a high-fidelity edited image, as the model only needs to predict the movement of a small portion of pixels. To achieve this, we decompose the entire movement process into multiple sub-processes. Specifically, we develop a transformer encoder-decoder based network named ‘Latent Predictor’ to predict the latent code motion trajectories from handle points to target points in an autoregressive manner. Moreover, to enhance the prediction stability, we introduce a component named ‘Latent Regularizer’, aimed at constraining the latent code motion within the distribution of natural images. Extensive experiments demonstrate that our method achieves state-of-the-art (SOTA) inference speed and image editing performance at the pixel-level granularity.

arxiv情報

著者 Pengxiang Cai,Zhiwei Liu,Guibo Zhu,Yunfang Niu,Jinqiao Wang
発行日 2024-07-26 10:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク