Feature Selection Based on Wasserstein Distance

要約

この論文では、機械学習における特徴選択を改善するために、Wasserstein 距離を活用した新しい特徴選択方法を紹介します。
相関またはカルバック・ライブラー (KL) 発散に基づく従来の方法とは異なり、私たちのアプローチはワッサーシュタイン距離を使用して特徴の類似性を評価し、本質的にクラス関係を捕捉し、ノイズの多いラベルに対して堅牢にします。
マルコフブランケットベースの特徴選択アルゴリズムを導入し、その有効性を実証します。
私たちの分析では、Wasserstein の距離に基づく特徴選択手法が、特定のノイズ モデルに依存することなく、ノイズの多いラベルの影響を効果的に低減することが示されています。
その有効性には下限を設けており、ノイズが存在する場合でも意味を持ち続けます。
複数のデータセットにわたる実験結果は、特に騒音の多い環境において、私たちのアプローチが従来の方法よりも一貫して優れていることを示しています。

要約(オリジナル)

This paper presents a novel feature selection method leveraging the Wasserstein distance to improve feature selection in machine learning. Unlike traditional methods based on correlation or Kullback-Leibler (KL) divergence, our approach uses the Wasserstein distance to assess feature similarity, inherently capturing class relationships and making it robust to noisy labels. We introduce a Markov blanket-based feature selection algorithm and demonstrate its effectiveness. Our analysis shows that the Wasserstein distance-based feature selection method effectively reduces the impact of noisy labels without relying on specific noise models. We provide a lower bound on its effectiveness, which remains meaningful even in the presence of noise. Experimental results across multiple datasets demonstrate that our approach consistently outperforms traditional methods, particularly in noisy settings.

arxiv情報

著者 Fuwei Li
発行日 2024-11-12 06:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク