Classifying Overlapping Gaussian Mixtures in High Dimensions: From Optimal Classifiers to Neural Nets

要約

高次元重複ガウス混合モデル (GMM) データの二値分類におけるベイズ最適決定境界の閉形式式を導出し、特に興味深い構造化データについて、それがクラス共分散の固有構造にどのように依存するかを示します。
私たちは、実世界のデータにインスピレーションを得た合成 GMM の実験を通じて、分類用にトレーニングされたディープ ニューラル ネットワークが、導出された最適な分類子に近似する予測子を学習することを経験的に実証します。
さらに、本物のデータでトレーニングされたネットワークに研究を拡張し、GMM 分析を反映して、決定しきい値が固有値ではなく共分散固有ベクトルと相関していることを観察しました。
これにより、確率的推論を実行し、複雑な分布から統計的パターンを抽出するニューラル ネットワークの能力に関する理論的な洞察が得られます。

要約(オリジナル)

We derive closed-form expressions for the Bayes optimal decision boundaries in binary classification of high dimensional overlapping Gaussian mixture model (GMM) data, and show how they depend on the eigenstructure of the class covariances, for particularly interesting structured data. We empirically demonstrate, through experiments on synthetic GMMs inspired by real-world data, that deep neural networks trained for classification, learn predictors which approximate the derived optimal classifiers. We further extend our study to networks trained on authentic data, observing that decision thresholds correlate with the covariance eigenvectors rather than the eigenvalues, mirroring our GMM analysis. This provides theoretical insights regarding neural networks’ ability to perform probabilistic inference and distill statistical patterns from intricate distributions.

arxiv情報

著者 Khen Cohen,Noam Levi,Yaron Oz
発行日 2024-05-28 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク