Do Ensembling and Meta-Learning Improve Outlier Detection in Randomized Controlled Trials?

要約

最新の多施設共同ランダム化対照試験 (MCRCT) では、大量の表形式のデータが収集され、異常がないか人間によって集中的に監視されます。
私たちは、44 か国以上の合計 77,001 人の患者を対象とした、現実世界の 7 つの MCRCT からの 838 データセット内の不規則なデータを特定するというタスクに関して、6 つの最新の機械学習ベースの外れ値検出アルゴリズムを実証的に評価することから始めました。
私たちの結果は、他のドメインからのデータに関する外れ値検出文献における以前の研究からの重要な発見を補強します。
既存のアルゴリズムは多くの場合、監視なしで異常の特定に成功し、少なくとも 1 つのアルゴリズムが 70.6% の確率で良好なパフォーマンスを示します。
ただし、データセット全体のパフォーマンスは大幅に異なり、一貫して良好に動作する単一のアルゴリズムは存在しないため、教師なしモデルの選択や、複数の候補モデルから不一致の可能性がある予測を集約するその他の手段のための新しい手法が動機付けられています。
我々は、複数の教師なしモデルの予測を集約するための単純なアルゴリズムであるメタ学習確率アンサンブル (MePE) を提案し、外れ値検出モデルの選択における最近のメタ学習アプローチと比較して良好に機能することを示します。
メタ学習は有望ですが、小規模アンサンブルは平均してあらゆる形式のメタ学習よりも優れたパフォーマンスを示します。このマイナスの結果は、医療や他の現実世界の領域における現在の外れ値検出アプローチの適用を導く可能性があります。

要約(オリジナル)

Modern multi-centre randomized controlled trials (MCRCTs) collect massive amounts of tabular data, and are monitored intensively for irregularities by humans. We began by empirically evaluating 6 modern machine learning-based outlier detection algorithms on the task of identifying irregular data in 838 datasets from 7 real-world MCRCTs with a total of 77,001 patients from over 44 countries. Our results reinforce key findings from prior work in the outlier detection literature on data from other domains. Existing algorithms often succeed at identifying irregularities without any supervision, with at least one algorithm exhibiting positive performance 70.6% of the time. However, performance across datasets varies substantially with no single algorithm performing consistently well, motivating new techniques for unsupervised model selection or other means of aggregating potentially discordant predictions from multiple candidate models. We propose the Meta-learned Probabilistic Ensemble (MePE), a simple algorithm for aggregating the predictions of multiple unsupervised models, and show that it performs favourably compared to recent meta-learning approaches for outlier detection model selection. While meta-learning shows promise, small ensembles outperform all forms of meta-learning on average, a negative result that may guide the application of current outlier detection approaches in healthcare and other real-world domains.

arxiv情報

著者 Walter Nelson,Jonathan Ranisau,Jeremy Petch
発行日 2023-11-09 16:05:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク