Multifactor Sequential Disentanglement via Structured Koopman Autoencoders




– 表現学習において、複雑なデータをその潜在的な要素に分解することは基本的なタスクの一つである。

– 逐次分離に関する既存研究には、データを時間変化要素と時間不変要素に分離した2つの要素表現が主に提供されていた。

– 本研究では、複数の(2つ以上の)意味的に分離された要素を生成する多要素分離を考慮する。

– 本研究では、潜在空間で系の基礎となる動力学を線形的に表現できるという強い感覚的バイアスが鍵となる。この仮説の下で、最近導入されたKoopmanオートエンコーダモデルを活用することが自然となる。しかし、Koopmanアプローチでは分離された表現が保証されないため、本研究ではスペクトル損失項を提唱し、構造化されたKoopman行列と分離を実現する。

– 完全な非監視型の新しい深層モデルを提案する。本モデルは、多要素分離をサポートし、簡単にコード化できる。具体的には、個々の静的要素をキャラクター間で交換するなど、新しい分離能力を示す。また、競合する非監視アプローチと比較して、2つの要素の標準的なベンチマークタスクにおいて大幅な改善を示し、弱監視および自己監視の最新アプローチと比較しても競争力を発揮する。

– コードはから入手可能。


Disentangling complex data to its latent factors of variation is a fundamental task in representation learning. Existing work on sequential disentanglement mostly provides two factor representations, i.e., it separates the data to time-varying and time-invariant factors. In contrast, we consider multifactor disentanglement in which multiple (more than two) semantic disentangled components are generated. Key to our approach is a strong inductive bias where we assume that the underlying dynamics can be represented linearly in the latent space. Under this assumption, it becomes natural to exploit the recently introduced Koopman autoencoder models. However, disentangled representations are not guaranteed in Koopman approaches, and thus we propose a novel spectral loss term which leads to structured Koopman matrices and disentanglement. Overall, we propose a simple and easy to code new deep model that is fully unsupervised and it supports multifactor disentanglement. We showcase new disentangling abilities such as swapping of individual static factors between characters, and an incremental swap of disentangled factors from the source to the target. Moreover, we evaluate our method extensively on two factor standard benchmark tasks where we significantly improve over competing unsupervised approaches, and we perform competitively in comparison to weakly- and self-supervised state-of-the-art approaches. The code is available at


著者 Nimrod Berman,Ilan Naiman,Omri Azencot
発行日 2023-03-30 10:01:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG パーマリンク