要約
高次元データ内の低次元の潜在的構造を特定することは、データの圧縮、ストレージ、送信、およびより深いデータ理解の必要性に駆り立てられた、機械学習コミュニティの中心的なトピックでした。
主成分分析(PCA)や自動エンコーダー(AE)などの従来の方法は、利用可能な場合でもラベル情報を無視して、監視されていない方法で動作します。
この作業では、監視されていない設定と監督された設定の両方で潜在スペースを学習できる統一された方法を紹介します。
インデックスモデルコンテキスト内の非線形多重応答回帰として問題を定式化します。
一般化されたスタインの補題を適用することにより、非線形リンク関数を知らずに潜在スペースを推定できます。
私たちの方法は、PCAの非線形一般化と見なすことができます。
さらに、「ブラックボックス」として動作するAEやその他のニューラルネットワークメソッドとは異なり、このアプローチはより良い解釈可能性を提供するだけでなく、強力な理論的保証を提供しながら計算の複雑さを軽減します。
包括的な数値実験と実際のデータ分析は、私たちの方法の優れた性能を示しています。
要約(オリジナル)
Identifying low-dimensional latent structures within high-dimensional data has long been a central topic in the machine learning community, driven by the need for data compression, storage, transmission, and deeper data understanding. Traditional methods, such as principal component analysis (PCA) and autoencoders (AE), operate in an unsupervised manner, ignoring label information even when it is available. In this work, we introduce a unified method capable of learning latent spaces in both unsupervised and supervised settings. We formulate the problem as a nonlinear multiple-response regression within an index model context. By applying the generalized Stein’s lemma, the latent space can be estimated without knowing the nonlinear link functions. Our method can be viewed as a nonlinear generalization of PCA. Moreover, unlike AE and other neural network methods that operate as ‘black boxes’, our approach not only offers better interpretability but also reduces computational complexity while providing strong theoretical guarantees. Comprehensive numerical experiments and real data analyses demonstrate the superior performance of our method.
arxiv情報
著者 | Ye Tian,Sanyou Wu,Long Feng |
発行日 | 2025-03-27 15:28:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google