Stochastic coordinate transformations with applications to robust machine learning

要約

この論文では、Karhunen-Loeve 展開を使用して入力データの基礎となる確率的動作を識別するための一連の新しい機能を紹介します。
これらの新しい特徴は、異常検出のための最近の機能データ分析理論に基づく座標変換を適用することによって構築されます。
関連する信号分解は、確率過程 (ランダム フィールド) を有限次元関数空間で近似するための既知の最適性特性を備えた正確な階層テンソル積展開です。
原則として、これらの低次元空間は、特定の名目クラスの「基礎となる信号」の確率的挙動のほとんどを捉えることができ、代替クラスの信号を確率的異常として拒否できます。
公称クラスの階層的有限次元拡張を使用して、異常な信号成分を検出するために一連の直交入れ子部分空間が構築されます。
これらの部分空間内の入力データの射影係数は、機械学習 (ML) 分類器のトレーニングに使用されます。
ただし、信号が公称射影成分と異常射影成分に分割されるため、クラスのより明確な分離面が生じます。
実際、公称クラスの共分散構造を十分に正確に推定すれば、明確な分類が得られることを示します。
これは、大規模で不均衡なデータセットがある状況で特に有利です。
私たちはこの概念を定式化し、多数の高次元データセットでそれを実証します。
このアプローチにより、元の特徴データを使用する ML 手法に比べて精度が大幅に向上します。
アルツハイマー病 ADNI データセットに対する当社のテストでは、精度が劇的に向上していることがわかります (精度が 48% から 89% に)。
さらに、GCM データから作成された不均衡な半合成データセットからのテストでは、データセットの不均衡が増すにつれて精度が向上することが確認されました。

要約(オリジナル)

In this paper we introduce a set of novel features for identifying underlying stochastic behavior of input data using the Karhunen-Loeve expansion. These novel features are constructed by applying a coordinate transformation based on the recent Functional Data Analysis theory for anomaly detection. The associated signal decomposition is an exact hierarchical tensor product expansion with known optimality properties for approximating stochastic processes (random fields) with finite dimensional function spaces. In principle these low dimensional spaces can capture most of the stochastic behavior of `underlying signals’ in a given nominal class, and can reject signals in alternative classes as stochastic anomalies. Using a hierarchical finite dimensional expansion of the nominal class, a series of orthogonal nested subspaces is constructed for detecting anomalous signal components. Projection coefficients of input data in these subspaces are then used to train a Machine Learning (ML) classifier. However, due to the split of the signal into nominal and anomalous projection components, clearer separation surfaces of the classes arise. In fact we show that with a sufficiently accurate estimation of the covariance structure of the nominal class, a sharp classification can be obtained. This is particularly advantageous for situations with large unbalanced datasets. We formulate this concept and demonstrate it on a number of high-dimensional datasets. This approach yields significant increases in accuracy over ML methods that use the original feature data. Our tests on the Alzheimer’s Disease ADNI dataset shows a dramatic increase in accuracy (from 48% to 89% accuracy). Furthermore, tests from unbalanced semi-synthetic datasets created from the GCM data confirmed increased accuracy as the dataset becomes more unbalanced.

arxiv情報

著者 Julio Enrique Castrillon-Candas,Dingning Liu,Sicheng Yang,Mark Kon
発行日 2023-06-13 15:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 46B09, 60G35, 60G60, 62-08, 62R10, 65F25, cs.LG, stat.ML パーマリンク