Identifiable Feature Learning for Spatial Data with Nonlinear ICA

要約

最近、非線形 ICA が、深層表現学習やもつれ解除で使用される多くのヒューリスティック モデルに代わる一般的な代替手段として浮上しています。
非線形 ICA の利点は、洗練された識別可能性理論が開発されていることです。
特に、十分に強い潜在的な依存関係の下で元のコンポーネントを復元できることが証明されています。
この一般理論にもかかわらず、実用的な非線形 ICA アルゴリズムは、これまで主に 1 次元の潜在的な依存関係を持つデータ、特に時系列データに限定されてきました。
この論文では、空間データや時空間データなどの高次元の依存構造を持つデータに自然に適用される $t$-process (TP) 潜在コンポーネントを採用した新しい非線形 ICA フレームワークを紹介します。
特に、ディープニューラルネットワークミキシング関数とTPプライアの組み合わせを処理するために変分推論法を拡張し、計算効率のためのポイントを誘導する方法を採用する、新しい学習および推論アルゴリズムを開発します。
理論面では、このような TP に依存しない成分が非常に一般的な条件下で識別可能であることを示します。
さらに、ガウス過程 (GP) 非線形 ICA が TP 非線形 ICA モデルの限界として確立され、この GP 限界における潜在成分の識別可能性がより制限されることを証明します。
つまり、これらのコンポーネントは、明らかに異なる共分散カーネルを持っている場合にのみ識別可能です。
私たちのアルゴリズムと識別可能性の定理は、シミュレートされた空間データと現実世界の時空間データで調査されます。

要約(オリジナル)

Recently, nonlinear ICA has surfaced as a popular alternative to the many heuristic models used in deep representation learning and disentanglement. An advantage of nonlinear ICA is that a sophisticated identifiability theory has been developed; in particular, it has been proven that the original components can be recovered under sufficiently strong latent dependencies. Despite this general theory, practical nonlinear ICA algorithms have so far been mainly limited to data with one-dimensional latent dependencies, especially time-series data. In this paper, we introduce a new nonlinear ICA framework that employs $t$-process (TP) latent components which apply naturally to data with higher-dimensional dependency structures, such as spatial and spatio-temporal data. In particular, we develop a new learning and inference algorithm that extends variational inference methods to handle the combination of a deep neural network mixing function with the TP prior, and employs the method of inducing points for computational efficacy. On the theoretical side, we show that such TP independent components are identifiable under very general conditions. Further, Gaussian Process (GP) nonlinear ICA is established as a limit of the TP Nonlinear ICA model, and we prove that the identifiability of the latent components at this GP limit is more restricted. Namely, those components are identifiable if and only if they have distinctly different covariance kernels. Our algorithm and identifiability theorems are explored on simulated spatial data and real world spatio-temporal data.

arxiv情報

著者 Hermanni Hälvä,Jonathan So,Richard E. Turner,Aapo Hyvärinen
発行日 2023-11-28 15:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク