Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery

要約

信頼性が高く解釈可能な機械学習 (ML) モデルを作成するには、堅牢な機能の選択が不可欠です。
ドメインの知識が限られており、基礎となる相互作用が不明な場合に統計的予測モデルを設計する場合、最適な特徴セットを選択することは多くの場合困難です。
この問題を軽減するために、時系列データセットのアンサンブルを同時に処理し、因果要因の単一セットを生成するマルチデータ (M) 因果特徴選択アプローチを導入します。
このアプローチでは、Tigramite Python パッケージに実装されている因果関係発見アルゴリズム PC1 または PCMCI を使用します。
これらのアルゴリズムは、条件付き独立性テストを利用して因果関係グラフの一部を推測します。
私たちの因果的特徴選択アプローチでは、ターゲットを予測する ML モデル (重回帰、ランダム フォレスト) に残りの因果的特徴を入力として渡す前に、因果的に偽りのリンクをフィルターで除外します。
私たちのフレームワークを西太平洋熱帯低気圧 (TC) の統計的強度予測に適用します。この予測では、ドライバーとその次元削減 (タイムラグ、垂直レベル、面積の平均化) を正確に選択することがしばしば困難です。
条件付き独立性テストでより厳格な有意性しきい値を使用すると、偽の因果関係を排除するのに役立ち、これにより、ML モデルが未確認の TC ケースに対してより適切に一般化できるようになります。
特徴の数が少ない M-PC1 は、M-PCMCI、非因果的 ML、およびその他の特徴選択方法 (遅延相関、ランダム) よりも優れており、eXplainable Artificial Intelligence に基づく特徴選択よりもわずかに優れています。
因果的特徴の選択から得られた最適な因果的要因は、根底にある関係の理解を向上させ、TC強化の新たな潜在的要因を示唆するのに役立ちます。

要約(オリジナル)

Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.

arxiv情報

著者 Saranya Ganesh S.,Tom Beucler,Frederick Iat-Hin Tam,Milton S. Gomez,Jakob Runge,Andreas Gerhardus
発行日 2023-06-30 14:14:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ao-ph, physics.comp-ph, stat.ML パーマリンク