Random Forest Kernel for High-Dimension Low Sample Size Classification

要約

高次元低サンプル サイズ (HDLSS) 問題は、機械学習の現実世界のアプリケーションの中に多数存在します。
医療画像からテキスト処理に至るまで、従来の機械学習アルゴリズムでは通常、そのようなデータから可能な限り最良の概念を学習することができません。
以前の研究で、私たちは、このような問題に対して最先端の結果をもたらす、マルチビュー分類のための非類似度ベースのアプローチであるランダムフォレスト相違度 (RFD) を提案しました。
この研究では、学習済み事前計算済み SVM カーネル (RFSVM) として RF 類似性測定を使用することにより、このアプローチの中心原理を HDLSS 分類問題の解決に置き換えます。
このような学習された類似性尺度が、この分類コンテキストに特に適しており、正確であることを示します。
厳密な統計分析によって裏付けられた 40 の公開 HDLSS 分類データセットに対して実施された実験では、RFSVM 手法が大部分の HDLSS 問題に対して既存の手法を上回っており、同時に低 HDLSS 問題または非 HDLSS 問題に対して非常に競争力を維持していることが示されています。

要約(オリジナル)

High dimension, low sample size (HDLSS) problems are numerous among real-world applications of machine learning. From medical images to text processing, traditional machine learning algorithms are usually unsuccessful in learning the best possible concept from such data. In a previous work, we proposed a dissimilarity-based approach for multi-view classification, the Random Forest Dissimilarity (RFD), that perfoms state-of-the-art results for such problems. In this work, we transpose the core principle of this approach to solving HDLSS classification problems, by using the RF similarity measure as a learned precomputed SVM kernel (RFSVM). We show that such a learned similarity measure is particularly suited and accurate for this classification context. Experiments conducted on 40 public HDLSS classification datasets, supported by rigorous statistical analyses, show that the RFSVM method outperforms existing methods for the majority of HDLSS problems and remains at the same time very competitive for low or non-HDLSS problems.

arxiv情報

著者 Lucca Portes Cavalheiro,Simon Bernard,Jean Paul Barddal,Laurent Heutte
発行日 2023-11-17 08:01:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク