CatNet: Effective FDR Control in LSTM with Gaussian Mirrors and SHAP Feature Importance

要約

CatNet は、False Discovery Rate (FDR) を効果的に制御し、ガウス ミラー (GM) 法を使用して LSTM の重要な特徴を選択するアルゴリズムです。
LSTM の特徴の重要性を時系列で評価するために、特徴の重要性を測定するための SHapley Additive exPlanations (SHAP) の導関数のベクトルを導入します。
また、GM アルゴリズムの多重共線性を回避し、制御された FDR で堅牢な特徴選択を行うための新しいカーネルベースの依存性尺度も提案します。
シミュレートされたデータを使用して、さまざまなリンク関数を備えた線形モデルと LSTM モデルの両方で CatNet のパフォーマンスを評価します。
このアルゴリズムは、あらゆる場合において高い統計検出力を維持しながら、FDR を効果的に制御します。
また、さまざまな低次元および高次元の場合におけるアルゴリズムのパフォーマンスも評価し、さまざまな入力次元における堅牢性を実証します。
実際のアプリケーションにおける CatNet のパフォーマンスを評価するために、S\&P 500 指数構成要素の価格を予測するためのマルチファクター投資ポートフォリオを構築します。
結果は、特徴選択と FDR 制御を行わない従来の LSTM モデルと比較して、私たちのモデルが優れた予測精度を達成していることを示しています。
さらに、CatNet は市場を動かす共通の特徴を効果的に捉えており、予測の解釈可能性を高めることで金融市場における情報に基づいた意思決定を支援します。
私たちの研究では、ガウス ミラー アルゴリズムと LSTM モデルを初めて統合し、FDR 制御手法の新しい特徴重要度メトリックとして SHAP 値を導入し、ニューラル ネットワークの特徴選択とエラー制御に大きな進歩をもたらしました。

要約(オリジナル)

We introduce CatNet, an algorithm that effectively controls False Discovery Rate (FDR) and selects significant features in LSTM with the Gaussian Mirror (GM) method. To evaluate the feature importance of LSTM in time series, we introduce a vector of the derivative of the SHapley Additive exPlanations (SHAP) to measure feature importance. We also propose a new kernel-based dependence measure to avoid multicollinearity in the GM algorithm, to make a robust feature selection with controlled FDR. We use simulated data to evaluate CatNet’s performance in both linear models and LSTM models with different link functions. The algorithm effectively controls the FDR while maintaining a high statistical power in all cases. We also evaluate the algorithm’s performance in different low-dimensional and high-dimensional cases, demonstrating its robustness in various input dimensions. To evaluate CatNet’s performance in real world applications, we construct a multi-factor investment portfolio to forecast the prices of S\&P 500 index components. The results demonstrate that our model achieves superior predictive accuracy compared to traditional LSTM models without feature selection and FDR control. Additionally, CatNet effectively captures common market-driving features, which helps informed decision-making in financial markets by enhancing the interpretability of predictions. Our study integrates of the Gaussian Mirror algorithm with LSTM models for the first time, and introduces SHAP values as a new feature importance metric for FDR control methods, marking a significant advancement in feature selection and error control for neural networks.

arxiv情報

著者 Jiaan Han,Junxiao Chen,Yanzhe Fu
発行日 2024-11-26 16:23:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-fin.ST, stat.ML パーマリンク