CatNet: Controlling the False Discovery Rate in LSTM with SHAP Feature Importance and Gaussian Mirrors

要約

誤検出率(FDR)を効果的に制御し、LSTMで重要な機能を選択するアルゴリズムであるCatnetを導入します。
CATNETは、SHAP値の導関数を使用して特徴の重要性を定量化し、Gaussian Mirrorアルゴリズムを使用してFDRコントロールのベクトル形成ミラー統計を構築します。
特徴間の非線形または時間的相関による不安定性を回避するために、新しいカーネルベースの独立測定も提案します。
CATNETは、シミュレートされたデータと実世界の両方のデータを使用して、さまざまなモデル設定で堅牢に実行され、過剰適合が減少し、モデルの解釈可能性が向上します。
FDRコントロールアルゴリズムで機能の重要性を高め、ガウスミラーを改善するSHAPを導入するフレームワークは、自然に他のタイムシリーズまたはシーケンシャルディープラーニングモデルに拡張できます。

要約(オリジナル)

We introduce CatNet, an algorithm that effectively controls False Discovery Rate (FDR) and selects significant features in LSTM. CatNet employs the derivative of SHAP values to quantify the feature importance, and constructs a vector-formed mirror statistic for FDR control with the Gaussian Mirror algorithm. To avoid instability due to nonlinear or temporal correlations among features, we also propose a new kernel-based independence measure. CatNet performs robustly on different model settings with both simulated and real-world data, which reduces overfitting and improves interpretability of the model. Our framework that introduces SHAP for feature importance in FDR control algorithms and improves Gaussian Mirror can be naturally extended to other time-series or sequential deep learning models.

arxiv情報

著者 Jiaan Han,Junxiao Chen,Yanzhe Fu
発行日 2025-06-04 17:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-fin.ST, stat.ML パーマリンク