要約
機械学習の分野における根本的な問題の1つは、次元削減です。
次元削減方法により、いわゆるディメンションの呪いと戦い、高次元データを視覚化し、一般に大規模なデータセットの保存と処理の効率を向上させることができます。
最もよく知られている非線形寸法削減方法の1つは、拡散マップです。
ただし、その美徳にもかかわらず、カーネルマトリックスのスペクトル分解に基づく拡散マップと他の多くのマニホールド学習方法の両方に、初期セット以外のデータに適用できないこと、計算の複雑さ、大規模なデータセットの高いメモリコストなどの欠点があります。
この作業では、深い学習に頼ることにより、これらの問題を軽減することを提案します。
具体的には、拡散マップの新しい定式化は、特定の制約のない最小化問題の解決策として提供され、それに基づいて、スペクトル分解を実行する必要なく、トレーニングサンプルの内側と外側の両方で拡散マップの埋め込みを計算するニューラルネットワークをトレーニングするコスト関数です。
このアプローチの機能は、拡散マップおよびnystrom法のさまざまなデータセットで、実際と合成の両方のデータセットで比較されます。
要約(オリジナル)
One of the fundamental problems within the field of machine learning is dimensionality reduction. Dimensionality reduction methods make it possible to combat the so-called curse of dimensionality, visualize high-dimensional data and, in general, improve the efficiency of storing and processing large data sets. One of the best-known nonlinear dimensionality reduction methods is Diffusion Maps. However, despite their virtues, both Diffusion Maps and many other manifold learning methods based on the spectral decomposition of kernel matrices have drawbacks such as the inability to apply them to data outside the initial set, their computational complexity, and high memory costs for large data sets. In this work, we propose to alleviate these problems by resorting to deep learning. Specifically, a new formulation of Diffusion Maps embedding is offered as a solution to a certain unconstrained minimization problem and, based on it, a cost function to train a neural network which computes Diffusion Maps embedding — both inside and outside the training sample — without the need to perform any spectral decomposition. The capabilities of this approach are compared on different data sets, both real and synthetic, with those of Diffusion Maps and the Nystrom method.
arxiv情報
著者 | Sergio García-Heredia,Ángela Fernández,Carlos M. Alaíz |
発行日 | 2025-05-09 14:31:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google