Classification of Superstatistical Features in High Dimensions

要約

一般的な凸損失と凸正則化の仮定の下、高次元領域における経験的リスク最小化による一般的な重心を持つ 2 つのデータ ポイントの混合の学習を特徴付けます。
データ ポイントの各クラウドは、分散が一般的な確率密度 $\varrho$ を持つ、おそらく数えられないガウス分布の重ね合わせからサンプリングすることによって取得されます。
したがって、私たちの分析は、共分散のないべき乗則テール分布のケースを含む、大規模なデータ分布をカバーしています。
得られた推定量の一般化パフォーマンスを研究し、正則化の役割と分離可能性遷移の分布スケール パラメーターへの依存性を分析します。

要約(オリジナル)

We characterise the learning of a mixture of two clouds of data points with generic centroids via empirical risk minimisation in the high dimensional regime, under the assumptions of generic convex loss and convex regularisation. Each cloud of data points is obtained by sampling from a possibly uncountable superposition of Gaussian distributions, whose variance has a generic probability density $\varrho$. Our analysis covers therefore a large family of data distributions, including the case of power-law-tailed distributions with no covariance. We study the generalisation performance of the obtained estimator, we analyse the role of regularisation, and the dependence of the separability transition on the distribution scale parameters.

arxiv情報

著者 Urte Adomaityte,Gabriele Sicuro,Pierpaolo Vivo
発行日 2023-05-16 17:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, math.ST, stat.ML, stat.TH パーマリンク