kNN Algorithm for Conditional Mean and Variance Estimation with Automated Uncertainty Quantification and Variable Selection

要約

本論文では、従来のノンパラメトリックkNNモデルの拡張性と適応性を、新しい変数選択技術と相乗させたkNNベースの回帰手法を紹介する。本手法は、ランダムな応答変数の条件付き平均と分散を正確に推定することに焦点を当て、それによって多様なシナリオにわたる条件付き分布を効果的に特徴付ける。本手法は、条件付き平均と分散に関する我々の先行推定研究を活用し、ロバストな不確実性定量化メカニズムを組み込んでいる。kNNの採用により、区間予測におけるスケーラブルな計算効率と、最適なノンパラメトリック率に沿った統計的精度を保証する。さらに、共変量を考慮したROC曲線を推定するための新しいkNNセミパラメトリックアルゴリズムを紹介する。平滑化パラメータkを選択するために、理論的に保証されたアルゴリズムを提案する。変数選択を組み込むことで、様々なモデリングタスクにおいて、従来のkNN手法よりも本手法の性能が大幅に向上する。低次元、中次元、高次元の共変量空間におけるシミュレーションにより、本アプローチを検証する。このアルゴリズムの有効性は、2つのケーススタディで実証されたように、特に生物医学的応用において顕著である。最後に理論的な分析を行い、特に基礎となる回帰モデルが低次元空間の値を取る場合に、従来のkNNモデルに対する本手法の一貫性と収束率を強調する。

要約(オリジナル)

In this paper, we introduce a kNN-based regression method that synergizes the scalability and adaptability of traditional non-parametric kNN models with a novel variable selection technique. This method focuses on accurately estimating the conditional mean and variance of random response variables, thereby effectively characterizing conditional distributions across diverse scenarios.Our approach incorporates a robust uncertainty quantification mechanism, leveraging our prior estimation work on conditional mean and variance. The employment of kNN ensures scalable computational efficiency in predicting intervals and statistical accuracy in line with optimal non-parametric rates. Additionally, we introduce a new kNN semi-parametric algorithm for estimating ROC curves, accounting for covariates. For selecting the smoothing parameter k, we propose an algorithm with theoretical guarantees.Incorporation of variable selection enhances the performance of the method significantly over conventional kNN techniques in various modeling tasks. We validate the approach through simulations in low, moderate, and high-dimensional covariate spaces. The algorithm’s effectiveness is particularly notable in biomedical applications as demonstrated in two case studies. Concluding with a theoretical analysis, we highlight the consistency and convergence rate of our method over traditional kNN models, particularly when the underlying regression model takes values in a low-dimensional space.

arxiv情報

著者 Marcos Matabuena,Juan C. Vidal,Oscar Hernan Madrid Padilla,Jukka-Pekka Onnela
発行日 2024-02-02 18:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.CO, stat.ME, stat.ML パーマリンク