要約
スタイルベースのジェネレーターの成功は、データ内のインスタンス間の変動に対処するのに役立つスタイル調整の恩恵を大きく受けています。
ただし、インスタンスごとの確率性は通常、定期的な畳み込みによって導入され、カーネルがいくつかの固定位置でフィーチャと相互作用するため、幾何学的変動をモデル化する能力が制限されます。
この問題を軽減するために、敵対的生成ネットワーク (GAN) のジェネレーターに、変調変換モジュール (MTM) と呼ばれるプラグ アンド プレイ モジュールを装備します。
このモジュールは、潜在コードの制御下で空間オフセットを予測します。これに基づいて、さまざまなインスタンスのさまざまな位置で畳み込み演算を適用できるため、ジオメトリ変形を処理するための追加の自由度をモデルに提供します。
広範な実験により、私たちのアプローチは、画像生成、3D 対応画像合成、ビデオ生成などのさまざまな生成タスクに忠実に一般化でき、ハイパーパラメーターの調整なしで最先端のフレームワークと互換性があることが示唆されています。
注目に値するのは、困難な太極拳データセットでの人間の生成に向けて、StyleGAN3 の FID が 21.36 から 13.60 に改善され、変調されたジオメトリ変換の学習の有効性が実証されたことです。
要約(オリジナル)
The success of style-based generators largely benefits from style modulation, which helps take care of the cross-instance variation within data. However, the instance-wise stochasticity is typically introduced via regular convolution, where kernels interact with features at some fixed locations, limiting its capacity for modeling geometric variation. To alleviate this problem, we equip the generator in generative adversarial networks (GANs) with a plug-and-play module, termed as modulated transformation module (MTM). This module predicts spatial offsets under the control of latent codes, based on which the convolution operation can be applied at variable locations for different instances, and hence offers the model an additional degree of freedom to handle geometry deformation. Extensive experiments suggest that our approach can be faithfully generalized to various generative tasks, including image generation, 3D-aware image synthesis, and video generation, and get compatible with state-of-the-art frameworks without any hyper-parameter tuning. It is noteworthy that, towards human generation on the challenging TaiChi dataset, we improve the FID of StyleGAN3 from 21.36 to 13.60, demonstrating the efficacy of learning modulated geometry transformation.
arxiv情報
著者 | Ceyuan Yang,Qihang Zhang,Yinghao Xu,Jiapeng Zhu,Yujun Shen,Bo Dai |
発行日 | 2023-08-29 17:51:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google