Analysis of Estimating the Bayes Rule for Gaussian Mixture Models with a Specified Missing-Data Mechanism

要約

半教師あり学習 (SSL) アプローチは、幅広い工学および科学分野に適用されて成功しています。
この論文では、Ahfock と McLachlan(2020) によって導入された、未分類の観測に対する欠損メカニズムを備えた生成モデル フレームワークを調査します。
部分的に分類されたサンプルでは、​​欠損データ メカニズムを備えたベイズ割り当て規則を使用した分類器が、特に中程度から低程度の重複と欠損クラス ラベルの割合で、2 クラス正規等分散モデルの完全教師あり分類器を上回ることができることを示します。
または、重なりが大きいが欠落しているラベルはほとんどありません。
また、重複領域や欠損クラス ラベルの割合に関係なく、欠損データ メカニズムを持たない分類器よりも優れたパフォーマンスを発揮します。
シミュレーションによる不等共分散を持つ 2 成分および 3 成分の正規混合モデルの探索は、我々の発見をさらに裏付けます。
最後に、ニューロンおよび皮膚病変のデータセットに対する欠損データ メカニズムを備えた提案された分類子の使用法を説明します。

要約(オリジナル)

Semi-supervised learning (SSL) approaches have been successfully applied in a wide range of engineering and scientific fields. This paper investigates the generative model framework with a missingness mechanism for unclassified observations, as introduced by Ahfock and McLachlan(2020). We show that in a partially classified sample, a classifier using Bayes rule of allocation with a missing-data mechanism can surpass a fully supervised classifier in a two-class normal homoscedastic model, especially with moderate to low overlap and proportion of missing class labels, or with large overlap but few missing labels. It also outperforms a classifier with no missing-data mechanism regardless of the overlap region or the proportion of missing class labels. Our exploration of two- and three-component normal mixture models with unequal covariances through simulations further corroborates our findings. Finally, we illustrate the use of the proposed classifier with a missing-data mechanism on interneuronal and skin lesion datasets.

arxiv情報

著者 Ziyang Lyu
発行日 2023-12-29 14:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク