要約
タイトル:(部分的な)情報分解に基づく特徴量選択における冗長性と関連性の厳密な情報理論的定義
要約:
– 機械学習や統計において、ターゲット変数に関する最大限の情報を提供する特徴量の最小セットを選択することは中心的なタスクである。
– しかし、冗長なおよび相乗的な寄与などの特徴量の相互作用を考慮した特徴量の関連性の厳密な情報理論的定義がまだ見つかっていない。
– これは、情報理論が一連の変数がターゲットに提供する情報を一意、冗長、相乗的な寄与に分解するための尺度を提供しない古典的な情報理論自体に根ざしていると主張される。
– 部分的情報分解(PID)枠組みによって、この分解が最近になって導入された。
– 我々は、情報理論を用いた特徴量選択が概念的に困難な問題である理由をPIDを用いて明確にし、PID用語での特徴量の関連性と冗長性の新しい定義を提供する。
– この定義から、条件付き相互情報量(CMI)が関連性を最大化し、同時に冗長性を最小限に抑えることを示す。
– 我々は、CMIベースの反復アルゴリズムを提案し、ベンチマーク例において無条件相互情報量との比較において、我々のCMIベースのアルゴリズムの優位性を示し、対応するPIDの推定値を提供して、特徴量選択問題における特徴量とその相互作用の情報貢献を数値化することができるPIDがどのように役立つかを説明する。
要約(オリジナル)
Selecting a minimal feature set that is maximally informative about a target variable is a central task in machine learning and statistics. Information theory provides a powerful framework for formulating feature selection algorithms — yet, a rigorous, information-theoretic definition of feature relevancy, which accounts for feature interactions such as redundant and synergistic contributions, is still missing. We argue that this lack is inherent to classical information theory which does not provide measures to decompose the information a set of variables provides about a target into unique, redundant, and synergistic contributions. Such a decomposition has been introduced only recently by the partial information decomposition (PID) framework. Using PID, we clarify why feature selection is a conceptually difficult problem when approached using information theory and provide a novel definition of feature relevancy and redundancy in PID terms. From this definition, we show that the conditional mutual information (CMI) maximizes relevancy while minimizing redundancy and propose an iterative, CMI-based algorithm for practical feature selection. We demonstrate the power of our CMI-based algorithm in comparison to the unconditional mutual information on benchmark examples and provide corresponding PID estimates to highlight how PID allows to quantify information contribution of features and their interactions in feature-selection problems.
arxiv情報
| 著者 | Patricia Wollstadt,Sebastian Schmitt,Michael Wibral |
| 発行日 | 2023-05-04 08:49:48+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI