Information decomposition to identify relevant variation in complex systems with machine learning

要約

複雑なシステムを理解するための基本的なステップの 1 つは、巨視的スケールでの動作に最も関連するシステムのコンポーネントのスケールでの変動を特定することです。
相互情報量は、変数間の特定の関数関係から独立しているため、システムのスケール全体で変動をリンクする自然な手段です。
ただし、高次元の連続値データから相互情報量を推定することは難しいことで知られており、重要な変動をわかりやすい方法で明らかにするという要求は、徹底的な検索によってのみ容易に達成できます。
ここでは、機械学習を使用して各測定値を非可逆圧縮することで、一連の測定値に含まれる情報を分解する、実用的で効率的で広く適用可能な方法論を提案します。
学習目標としての分散情報のボトルネックに導かれ、情報分解により、指定されたマクロスケールの動作との関連性によってシステム状態の測定値の変動が分類され、さまざまな量の予測情報に対する測定値の最も重要なサブセットが明らかになります。
学習された圧縮スキームを検査することによって、さらなる粒度が実現されます。圧縮中に送信される変動は、マクロスケールの動作に最も関連する測定値間の差異で構成されます。
私たちは、ブール回路と塑性変形を受ける非晶質材料という 2 つの模範的な複雑システムに焦点を当てて分析します。
どちらの例でも、システム状態の高エントロピーの中から、マクロスケールの動作に最も関連するエントロピーの特定のビットが特定され、複雑なシステムにおけるミクロとマクロの関係についての洞察が得られます。
情報理論によってもたらされる完全な一般性を利用して、データ内の意味のある変動を特定することは、複雑なシステムの研究に実用的になります。

要約(オリジナル)

One of the fundamental steps toward understanding a complex system is identifying variation at the scale of the system’s components that is most relevant to behavior on a macroscopic scale. Mutual information is a natural means of linking variation across scales of a system due to its independence of the particular functional relationship between variables. However, estimating mutual information given high-dimensional, continuous-valued data is notoriously difficult, and the desideratum — to reveal important variation in a comprehensible manner — is only readily achieved through exhaustive search. Here we propose a practical, efficient, and broadly applicable methodology to decompose the information contained in a set of measurements by lossily compressing each measurement with machine learning. Guided by the distributed information bottleneck as a learning objective, the information decomposition sorts variation in the measurements of the system state by relevance to specified macroscale behavior, revealing the most important subsets of measurements for different amounts of predictive information. Additional granularity is achieved by inspection of the learned compression schemes: the variation transmitted during compression is composed of distinctions among measurement values that are most relevant to the macroscale behavior. We focus our analysis on two paradigmatic complex systems: a Boolean circuit and an amorphous material undergoing plastic deformation. In both examples, specific bits of entropy are identified out of the high entropy of the system state as most related to macroscale behavior for insight about the connection between micro- and macro- in the complex system. The identification of meaningful variation in data, with the full generality brought by information theory, is made practical for the study of complex systems.

arxiv情報

著者 Kieran A. Murphy,Dani S. Bassett
発行日 2023-07-10 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.soft, cs.IT, cs.LG, math.IT, physics.data-an パーマリンク