要約
深い学習における機能の選択は、特に解釈可能性と計算効率が最重要である高次元の表形式データにとって、重要な課題のままです。
GFSNetworkは、温度制御されたGumbel-Sigmoidサンプリングを通じて微分可能な特徴選択を実行する新しいニューラルアーキテクチャです。
ユーザーが要求された機能の機能を定義する必要がある従来の方法とは異なり、GFSNetworkはエンドツーエンドのプロセス中に自動的に選択します。
さらに、GFSNetworkは、入力機能の数に関係なく、一定の計算オーバーヘッドを維持します。
GFSNetworkを一連の分類および回帰ベンチマークで評価します。このベンチマークでは、Deeplasso、注意マップ、従来の機能セレクターなどの最近の方法を常に上回り、機能を大幅に使用します。
さらに、現実世界のメタゲノムデータセットに関するアプローチを検証し、高次元の生物学的データにおけるその有効性を実証します。
結論として、私たちの方法は、ニューラルネットワークの柔軟性と従来の機能選択解釈可能性のギャップを埋めるスケーラブルなソリューションを提供します。
https://github.com/wwydmanski/gfsnetworkでgfsnetworkのPython実装と、Pypiパッケージ(gfs_network)を共有しています。
要約(オリジナル)
Feature selection in deep learning remains a critical challenge, particularly for high-dimensional tabular data where interpretability and computational efficiency are paramount. We present GFSNetwork, a novel neural architecture that performs differentiable feature selection through temperature-controlled Gumbel-Sigmoid sampling. Unlike traditional methods, where the user has to define the requested number of features, GFSNetwork selects it automatically during an end-to-end process. Moreover, GFSNetwork maintains constant computational overhead regardless of the number of input features. We evaluate GFSNetwork on a series of classification and regression benchmarks, where it consistently outperforms recent methods including DeepLasso, attention maps, as well as traditional feature selectors, while using significantly fewer features. Furthermore, we validate our approach on real-world metagenomic datasets, demonstrating its effectiveness in high-dimensional biological data. Concluding, our method provides a scalable solution that bridges the gap between neural network flexibility and traditional feature selection interpretability. We share our python implementation of GFSNetwork at https://github.com/wwydmanski/GFSNetwork, as well as a PyPi package (gfs_network).
arxiv情報
著者 | Witold Wydmański,Marek Śmieja |
発行日 | 2025-03-17 15:47:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google