要約
定量化は教師あり機械学習タスクであり、個々の観測値にラベルを付けるのではなく、データセットのクラス普及率を推定することに重点を置いています。
優れたパフォーマンスを発揮するメディアン スイープからインスピレーションを得た、新しいパラメトリック バイナリ数量化子である連続スイープを紹介します。
メディアン スイープは現在、最も優れたバイナリ数量指定子の 1 つですが、この数量指定子を 3 つの点で変更しました。つまり、1) 経験的分布の代わりにパラメトリック クラス分布を使用する、2) 離散決定ルールを適用する代わりに決定境界を最適化する、3) の計算です。
中央値の代わりに平均値を使用します。
一般的なモデルの仮定の下で、連続スイープのバイアスと分散の解析式を導き出します。
これは、定量化学習の分野における最初の理論的貢献の 1 つです。
さらに、これらの導出により、最適な決定境界を見つけることができます。
最後に、私たちのシミュレーション調査では、幅広い状況において連続スイープが中央値スイープよりも優れたパフォーマンスを発揮することが示されています。
要約(オリジナル)
Quantification is a supervised machine learning task, focused on estimating the class prevalence of a dataset rather than labeling its individual observations. We introduce Continuous Sweep, a new parametric binary quantifier inspired by the well-performing Median Sweep. Median Sweep is currently one of the best binary quantifiers, but we have changed this quantifier on three points, namely 1) using parametric class distributions instead of empirical distributions, 2) optimizing decision boundaries instead of applying discrete decision rules, and 3) calculating the mean instead of the median. We derive analytic expressions for the bias and variance of Continuous Sweep under general model assumptions. This is one of the first theoretical contributions in the field of quantification learning. Moreover, these derivations enable us to find the optimal decision boundaries. Finally, our simulation study shows that Continuous Sweep outperforms Median Sweep in a wide range of situations.
arxiv情報
著者 | Kevin Kloos,Julian D. Karch,Quinten A. Meertens,Mark de Rooij |
発行日 | 2023-08-16 14:18:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google