Partial Information Decomposition for Data Interpretability and Feature Selection

要約

このペーパーでは、データの解釈と特徴の選択を同時に行うための新しいパラダイムである特徴の部分情報分解 (PIDF) を紹介します。
単一の重要度値を割り当てる従来の方法とは対照的に、私たちのアプローチは特徴ごとに 3 つの指標 (ターゲット変数と共有される相互情報、相乗情報に対する特徴の寄与、および冗長な情報の量) に基づいています。
特に、これら 3 つの指標に基づいた新しい手順を開発します。これにより、特徴がターゲットとどのように相関しているかだけでなく、他の特徴と組み合わせて考慮することで提供される追加情報や重複情報も明らかになります。
私たちは合成データと現実世界のデータの両方を使用して PIDF を広範囲に評価し、遺伝学と神経科学のケーススタディを考慮することで、その潜在的な用途と有効性を実証します。

要約(オリジナル)

In this paper, we introduce Partial Information Decomposition of Features (PIDF), a new paradigm for simultaneous data interpretability and feature selection. Contrary to traditional methods that assign a single importance value, our approach is based on three metrics per feature: the mutual information shared with the target variable, the feature’s contribution to synergistic information, and the amount of this information that is redundant. In particular, we develop a novel procedure based on these three metrics, which reveals not only how features are correlated with the target but also the additional and overlapping information provided by considering them in combination with other features. We extensively evaluate PIDF using both synthetic and real-world data, demonstrating its potential applications and effectiveness, by considering case studies from genetics and neuroscience.

arxiv情報

著者 Charles Westphal,Stephen Hailes,Mirco Musolesi
発行日 2024-05-29 15:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT パーマリンク