Lost in Latent Space: Disentangled Models and the Challenge of Combinatorial Generalisation

要約

最近の研究では、高度に解きほぐされた表現を持つ生成モデルは、生成因子値の目に見えない組み合わせを一般化できないことが示されています。
これらの発見は、もつれ表現と比較した場合、トレーニング外の分布設定でのパフォーマンスの向上を示した以前の研究と矛盾します。
さらに、報告された失敗の原因が、(a) エンコーダが新しい組み合わせを潜在空間の適切な領域にマッピングできなかったことが原因なのか、(b) 新しい組み合わせは正しくマッピングされているものの、デコーダ/ダウンストリーム プロセスがレンダリングできないことが原因なのかは明らかではありません。
表示されていない組み合わせに対して正しい出力が得られます。
私たちは、さまざまなデータセットとトレーニング設定でいくつかのモデルをテストすることで、これらの代替案を調査します。
我々は、(i) モデルが失敗した場合、そのエンコーダも潜在空間の正しい領域への見えない組み合わせのマッピングに失敗し、(ii) モデルが成功した場合、それはテスト条件が十分な例を除外していないか、生成的要素が除外されていたためであることを発見しました。
係数は出力イメージの独立した部分を決定します。
これらの結果に基づいて、適切に一般化するには、モデルは変動要因を捉えるだけでなく、データの生成に使用された生成プロセスを反転する方法を理解する必要があると主張します。

要約(オリジナル)

Recent research has shown that generative models with highly disentangled representations fail to generalise to unseen combination of generative factor values. These findings contradict earlier research which showed improved performance in out-of-training distribution settings when compared to entangled representations. Additionally, it is not clear if the reported failures are due to (a) encoders failing to map novel combinations to the proper regions of the latent space or (b) novel combinations being mapped correctly but the decoder/downstream process is unable to render the correct output for the unseen combinations. We investigate these alternatives by testing several models on a range of datasets and training settings. We find that (i) when models fail, their encoders also fail to map unseen combinations to correct regions of the latent space and (ii) when models succeed, it is either because the test conditions do not exclude enough examples, or because excluded generative factors determine independent parts of the output image. Based on these results, we argue that to generalise properly, models not only need to capture factors of variation, but also understand how to invert the generative process that was used to generate the data.

arxiv情報

著者 Milton L. Montero,Jeffrey S. Bowers,Rui Ponte Costa,Casimir J. H. Ludwig,Gaurav Malhotra
発行日 2024-06-14 14:09:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク