Content-Style Learning from Unaligned Domains: Identifiability under Unknown Latent Dimensions

要約

整列されていないマルチドメイン データからの潜在コンテンツとスタイル変数の識別可能性を理解することは、ドメイン変換やデータ生成などのタスクに不可欠です。
コンテンツ スタイルの識別に関する既存の研究は、たとえば、すべての潜在コンポーネントが相互に独立していて、コンテンツとスタイルの変数の次元が既知であるなど、ある程度厳しい条件の下で開発されることがよくありました。
私たちは、クロスドメイン \textit{潜在分布マッチング} (LDM) を介した新しい分析フレームワークを導入します。これにより、大幅に緩和された条件下でコンテンツ スタイルの識別可能性が確立されます。
具体的には、潜在変数の成分ごとの独立性などの制限的な仮定を削除できることを示します。
最も注目すべき点は、スパース制約が学習された潜在表現に適切に課されている場合、コンテンツとスタイルの次元の事前知識は識別可能性を確保するために必要ではないことを証明することです。
正確な潜在次元の知識をバイパスすることは、教師なし表現学習における長年の願望でした。私たちの分析は、その理論的および実践的な実行可能性を初めて裏付けました。
実装側では、LDM 定式化を、結合された潜在変数を使用して正規化されたマルチドメイン GAN 損失に再キャストしました。
再定式化が穏やかな条件下では LDM と同等であるにもかかわらず、必要な計算リソースが大幅に少なくなることを示します。
実験は私たちの理論的主張を裏付けています。

要約(オリジナル)

Understanding identifiability of latent content and style variables from unaligned multi-domain data is essential for tasks such as domain translation and data generation. Existing works on content-style identification were often developed under somewhat stringent conditions, e.g., that all latent components are mutually independent and that the dimensions of the content and style variables are known. We introduce a new analytical framework via cross-domain \textit{latent distribution matching} (LDM), which establishes content-style identifiability under substantially more relaxed conditions. Specifically, we show that restrictive assumptions such as component-wise independence of the latent variables can be removed. Most notably, we prove that prior knowledge of the content and style dimensions is not necessary for ensuring identifiability, if sparsity constraints are properly imposed onto the learned latent representations. Bypassing the knowledge of the exact latent dimension has been a longstanding aspiration in unsupervised representation learning — our analysis is the first to underpin its theoretical and practical viability. On the implementation side, we recast the LDM formulation into a regularized multi-domain GAN loss with coupled latent variables. We show that the reformulation is equivalent to LDM under mild conditions — yet requiring considerably less computational resource. Experiments corroborate with our theoretical claims.

arxiv情報

著者 Sagar Shrestha,Xiao Fu
発行日 2024-11-11 18:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク