Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery




– 頑強な特徴量選択は、信頼性が高く解釈可能な機械学習(ML)モデルを作成するために重要である。
– 領域知識が限られており、基盤となる相互作用が不明な場合、最適な特徴量の選択はしばしば困難であるため、多くのデータセットを同時に処理して1つの理由付けドライバを作成するMultidata (M) 因果フィーチャー選択アプローチを導入する。
– この方法は、Tigramite Pythonパッケージで実装された因果的発見アルゴリズムPC1またはPCMCIを使用する。これらのアルゴリズムは、因果グラフの一部を推論するために条件付き独立性テストを使用する。
– 因果フィーチャ選択アプローチは、因果関係のないリンクをフィルタリングして、残りの因果フィーチャをMLモデル(多重線形回帰、ランダムフォレスト)の入力として使用する。このフレームワークは、西太平洋熱帯低気圧(TC)の統計強度予測に適用され、適切なドライバとその次元削減(時系列、鉛直レベル、面積平均)を正確に選択することは困難です。
– 条件付き独立性テストによりより厳しい有意性の閾値を使用することで、因果関係のない関係を除去し、MLモデルが未知のTCケースに対してよりよく一般化できるようになります。
– 因果フィーチャ選択から得られた最適な因果的ドライバは、基盤となる関係の理解を改善し、TC強化の新しい潜在的な要因を示唆するために役立ちます。M-PC1は、特徴量選択に基づく説明可能な人工知能を上回ります。


Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.


著者 Saranya Ganesh S.,Tom Beucler,Frederick Iat-Hin Tam,Milton S. Gomez,Jakob Runge,Andreas Gerhardus
発行日 2023-05-08 10:31:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG,, physics.comp-ph, stat.ML パーマリンク