Disentanglement in Difference: Directly Learning Semantically Disentangled Representations by Maximizing Inter-Factor Differences

要約

本研究では、離散化表現学習における潜在変数の統計的独立性と意味的離散化の目標との間の本質的な矛盾に対処するために、差分離散化(Disentanglement in Difference:DiD)を提案する。従来の離散化手法は、潜在変数間の統計的独立性を向上させることで離散化表現を実現している。しかし、潜在変数の統計的独立性は、それらが意味的に無関係であることを必ずしも意味しないため、統計的独立性を向上させることが、必ずしも離散化の性能を向上させるとは限らない。そこで、潜在変数の統計的独立性ではなく、意味的な差分を直接学習するDiDが提案される。DiDでは、意味的差異を測定するために差分エンコーダが設計され、次元間比較を容易にするために対比的損失関数が確立される。この両者により、モデルは異なる意味因子を直接区別し、分離することが可能となり、統計的独立性と意味的分離の間の矛盾が解決される。dSpritesデータセットと3DShapesデータセットを用いた実験結果から、提案するDiDが、様々な離散化指標において既存の主流手法を凌駕することが実証される。

要約(オリジナル)

In this study, Disentanglement in Difference(DiD) is proposed to address the inherent inconsistency between the statistical independence of latent variables and the goal of semantic disentanglement in disentanglement representation learning. Conventional disentanglement methods achieve disentanglement representation by improving statistical independence among latent variables. However, the statistical independence of latent variables does not necessarily imply that they are semantically unrelated, thus, improving statistical independence does not always enhance disentanglement performance. To address the above issue, DiD is proposed to directly learn semantic differences rather than the statistical independence of latent variables. In the DiD, a Difference Encoder is designed to measure the semantic differences; a contrastive loss function is established to facilitate inter-dimensional comparison. Both of them allow the model to directly differentiate and disentangle distinct semantic factors, thereby resolving the inconsistency between statistical independence and semantic disentanglement. Experimental results on the dSprites and 3DShapes datasets demonstrate that the proposed DiD outperforms existing mainstream methods across various disentanglement metrics.

arxiv情報

著者 Xingshen Zhang,Lin Wang,Shuangrong Liu,Xintao Lu,Chaoran Pang,Bo Yang
発行日 2025-04-03 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク