Latent Traversals in Generative Models as Potential Flows

要約

タイトル:潜在変数を流れとして扱う生成モデルでの潜在的なトラバーサル

要約:

– 深層生成モデルにおける潜在空間の構造は未だに不明であり、意味のあるトラバーサルを実行することは未解決の研究課題である。
– 従来の研究では、潜在構造を線形的にモデリングし、それに対応する線形方向を見つけ、`disentangled(分離)`生成を行うことを目的としてきた。
– これに対し、本研究では潜在構造を学習された動的なポテンシャルランドスケープでモデリングし、標本の流れをポテンシャルの勾配として実現することを提案している。
– 物理学、最適輸送、神経科学に着想を得て、これらのポテンシャルランドスケープは物理的に現実的な偏微分方程式として学習され、空間と時間の両方で柔軟に変化することができる。
– 分離を達成するために、複数のポテンシャルが同時に学習され、分かりやすく意味のあるものに制限されるように分類器によって制約をかける。
– 実験的に、本方法が最新のベースラインよりも定量的・定性的に分離された軌跡を達成することを示した。さらに、本方法はトレーニング中に正則化項として統合でき、構造化された表現の学習に向けた帰納バイアスとして機能し、同様に構造化されたデータのモデル尤度を改善する。

要約(オリジナル)

Despite the significant recent progress in deep generative models, the underlying structure of their latent spaces is still poorly understood, thereby making the task of performing semantically meaningful latent traversals an open research challenge. Most prior work has aimed to solve this challenge by modeling latent structures linearly, and finding corresponding linear directions which result in `disentangled’ generations. In this work, we instead propose to model latent structures with a learned dynamic potential landscape, thereby performing latent traversals as the flow of samples down the landscape’s gradient. Inspired by physics, optimal transport, and neuroscience, these potential landscapes are learned as physically realistic partial differential equations, thereby allowing them to flexibly vary over both space and time. To achieve disentanglement, multiple potentials are learned simultaneously, and are constrained by a classifier to be distinct and semantically self-consistent. Experimentally, we demonstrate that our method achieves both more qualitatively and quantitatively disentangled trajectories than state-of-the-art baselines. Further, we demonstrate that our method can be integrated as a regularization term during training, thereby acting as an inductive bias towards the learning of structured representations, ultimately improving model likelihood on similarly structured data.

arxiv情報

著者 Yue Song,Andy Keller,Nicu Sebe,Max Welling
発行日 2023-04-25 15:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク