Statistical Modeling of Univariate Multimodal Data

要約

単峰性は、データの密度の単一モードを中心としたデータのグループ化動作を示す重要な特性を構成します。
データ密度の谷点の周りで再帰的に分割することにより、単変量データを単峰性のサブセットに分割する方法を提案します。
谷点の検出では、密度谷の存在を示す経験的累積密度関数 (ecdf) プロットの凸包上の臨界点の特性を導入します。
次に、均一混合モデル (UMM) の形式で、取得した単峰サブセットごとに統計モデルを提供する単峰データ モデリング アプローチを適用します。
その結果、初期データセットの階層統計モデルは、単峰性混合モデル (UDMM) と呼ばれる UMM の混合の形式で取得されます。
提案された方法はノンパラメトリックかつハイパーパラメータフリーで、単峰性サブセットの数を自動的に推定し、クラスタリングおよび密度推定タスクの実験結果が示すように正確な統計モデルを提供します。

要約(オリジナル)

Unimodality constitutes a key property indicating grouping behavior of the data around a single mode of its density. We propose a method that partitions univariate data into unimodal subsets through recursive splitting around valley points of the data density. For valley point detection, we introduce properties of critical points on the convex hull of the empirical cumulative density function (ecdf) plot that provide indications on the existence of density valleys. Next, we apply a unimodal data modeling approach that provides a statistical model for each obtained unimodal subset in the form of a Uniform Mixture Model (UMM). Consequently, a hierarchical statistical model of the initial dataset is obtained in the form of a mixture of UMMs, named as the Unimodal Mixture Model (UDMM). The proposed method is non-parametric, hyperparameter-free, automatically estimates the number of unimodal subsets and provides accurate statistical models as indicated by experimental results on clustering and density estimation tasks.

arxiv情報

著者 Paraskevi Chasani,Aristidis Likas
発行日 2024-12-20 13:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク