Deformable Generator Networks: Unsupervised Disentanglement of Appearance and Geometry

要約

我々は、純粋に教師なしの方法で画像データとビデオデータの両方の外観と幾何学的情報を解きほぐすための変形可能なジェネレータモデルを提示します。
外観ジェネレータ ネットワークは、色、照明、アイデンティティ、カテゴリなどの外観に関連する情報をモデル化します。一方、ジオメトリック ジェネレータは、生成された外観をワープして最終的な外観を得るために使用される変形フィールドを生成することにより、回転や伸縮などの幾何学的なワーピングを実行します。
画像またはビデオシーケンス。
2 つのジェネレーターは独立した潜在ベクトルを入力として受け取り、画像またはビデオ シーケンスから外観と幾何学的情報を解きほぐします。
ビデオ データの場合、時間の経過に伴うダイナミクスをキャプチャするために、非線形遷移モデルが外観ジェネレーターとジオメトリック ジェネレーターの両方に導入されます。
提案されたスキームは一般的であり、さまざまな生成モデルに簡単に統合できます。
広範な定性的および定量的実験により、外観と幾何学的情報をうまく分解でき、学習した幾何学的ジェネレータを他の画像データセットに簡単に転送して知識伝達タスクを容易にできることが示されています。

要約(オリジナル)

We present a deformable generator model to disentangle the appearance and geometric information for both image and video data in a purely unsupervised manner. The appearance generator network models the information related to appearance, including color, illumination, identity or category, while the geometric generator performs geometric warping, such as rotation and stretching, through generating deformation field which is used to warp the generated appearance to obtain the final image or video sequences. Two generators take independent latent vectors as input to disentangle the appearance and geometric information from image or video sequences. For video data, a nonlinear transition model is introduced to both the appearance and geometric generators to capture the dynamics over time. The proposed scheme is general and can be easily integrated into different generative models. An extensive set of qualitative and quantitative experiments shows that the appearance and geometric information can be well disentangled, and the learned geometric generator can be conveniently transferred to other image datasets to facilitate knowledge transfer tasks.

arxiv情報

著者 Xianglei Xing,Ruiqi Gao,Tian Han,Song-Chun Zhu,Ying Nian Wu
発行日 2023-10-06 08:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク