要約
特徴の選択は、最もパターンを識別する特徴サブセットを特定することを目的としています。
従来の文献では、フィルター (例: 逆方向消去) および埋め込み (例: Lasso) メソッドにはハイパーパラメーター (例: トップ K、スコアしきい値処理) があり、特定のモデルに関連付けられているため、一般化することが困難でした。
ラッパー メソッドは、巨大な離散空間で特徴サブセットを検索するため、計算コストがかかります。
特徴選択の方法を変革するために、選択された特徴サブセットを選択決定トークン シーケンスと見なし、特徴知識を抽出して決定シーケンスを生成する深層逐次生成学習タスクとして特徴選択を再定式化します。
私たちの方法には 3 つのステップが含まれます。 (1) 逐次再構成損失、変分損失、およびパフォーマンス評価損失の結合を対象とした深い変分変換器モデルを開発します。
私たちのモデルは、特徴選択の知識を抽出し、連続的な埋め込み空間を学習して、特徴選択の決定シーケンスをユーティリティ スコアに関連付けられた埋め込みベクトルにマッピングできます。
(2) トレーニングされた特徴サブセット ユーティリティ エバリュエーターを勾配プロバイダーとして活用し、最適な特徴サブセット埋め込みの特定をガイドします。(3) 最適な特徴サブセット埋め込みをデコードして、自動停止を使用して最適な特徴選択決定シーケンスを自己回帰的に生成します。
広範な実験結果は、この生成的観点が、大規模な離散検索空間や専門家固有のハイパーパラメータを必要とせずに、効果的かつ汎用的であることを示しています。
要約(オリジナル)
Feature selection aims to identify the most pattern-discriminative feature subset. In prior literature, filter (e.g., backward elimination) and embedded (e.g., Lasso) methods have hyperparameters (e.g., top-K, score thresholding) and tie to specific models, thus, hard to generalize; wrapper methods search a feature subset in a huge discrete space and is computationally costly. To transform the way of feature selection, we regard a selected feature subset as a selection decision token sequence and reformulate feature selection as a deep sequential generative learning task that distills feature knowledge and generates decision sequences. Our method includes three steps: (1) We develop a deep variational transformer model over a joint of sequential reconstruction, variational, and performance evaluator losses. Our model can distill feature selection knowledge and learn a continuous embedding space to map feature selection decision sequences into embedding vectors associated with utility scores. (2) We leverage the trained feature subset utility evaluator as a gradient provider to guide the identification of the optimal feature subset embedding;(3) We decode the optimal feature subset embedding to autoregressively generate the best feature selection decision sequence with autostop. Extensive experimental results show this generative perspective is effective and generic, without large discrete search space and expert-specific hyperparameters.
arxiv情報
著者 | Wangyang Ying,Dongjie Wang,Haifeng Chen,Yanjie Fu |
発行日 | 2024-03-06 16:31:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google