Finding Optimal Diverse Feature Sets with Alternative Feature Selection

要約

特徴選択は、小型で解釈可能でありながら高精度の予測モデルを取得するために一般的です。
従来の機能選択方法では通常、1 つの機能セットのみが生成され、シナリオによっては十分ではない場合があります。
たとえば、ユーザーは、データの異なる説明を提供する、同様の予測品質を持つ代替の特徴セットを見つけることに興味があるかもしれません。
この記事では、代替の特徴選択を紹介し、それを最適化問題として形式化します。
特に、制約を介して代替案を定義し、ユーザーが代替案の数と非類似性を制御できるようにします。
次に、この最適化問題の複雑さを分析し、NP 硬度を示します。
さらに、従来の特徴選択方法を目的として統合する方法について説明します。
最後に、30 の分類データセットを使用して代替特徴選択を評価します。
私たちは、代替の特徴セットが確かに高い予測品質を持っている可能性があることを観察し、この結果に影響を与えるいくつかの要因を分析します。

要約(オリジナル)

Feature selection is popular for obtaining small, interpretable, yet highly accurate prediction models. Conventional feature-selection methods typically yield one feature set only, which might not suffice in some scenarios. For example, users might be interested in finding alternative feature sets with similar prediction quality, offering different explanations of the data. In this article, we introduce alternative feature selection and formalize it as an optimization problem. In particular, we define alternatives via constraints and enable users to control the number and dissimilarity of alternatives. Next, we analyze the complexity of this optimization problem and show NP-hardness. Further, we discuss how to integrate conventional feature-selection methods as objectives. Finally, we evaluate alternative feature selection with 30 classification datasets. We observe that alternative feature sets may indeed have high prediction quality, and we analyze several factors influencing this outcome.

arxiv情報

著者 Jakob Bach
発行日 2023-07-21 14:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク