On high-dimensional modifications of the nearest neighbor classifier

要約

最近傍分類器はおそらく、文献で入手可能な最も単純で一般的なノンパラメトリック分類器です。
ただし、ペアごとの距離の集中と近傍構造の違反により、この分類器は高次元、低サンプル サイズ (HDLSS) の状況、特に競合するクラス間のスケールの違いが位置の違いよりも大きい場合に問題が発生することがよくあります。
この問題に対処するために文献でいくつかの試みがなされてきました。
この記事では、これらの既存の方法のいくつかについて説明し、いくつかの新しい方法を提案します。
この点に関していくつかの理論的調査を実行し、いくつかのシミュレートされたベンチマークデータセットを分析して、提案された方法の経験的パフォーマンスを既存の方法のいくつかと比較します。

要約(オリジナル)

Nearest neighbor classifier is arguably the most simple and popular nonparametric classifier available in the literature. However, due to the concentration of pairwise distances and the violation of the neighborhood structure, this classifier often suffers in high-dimension, low-sample size (HDLSS) situations, especially when the scale difference between the competing classes dominates their location difference. Several attempts have been made in the literature to take care of this problem. In this article, we discuss some of these existing methods and propose some new ones. We carry out some theoretical investigations in this regard and analyze several simulated and benchmark datasets to compare the empirical performances of proposed methods with some of the existing ones.

arxiv情報

著者 Annesha Ghosh,Deep Ghoshal,Bilol Banerjee,Anil K. Ghosh
発行日 2024-10-24 15:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク