要約
科学研究では、システム内の高レベルの変数の根底にある因果構造を理解しようとすることがよくあります。
たとえば、気候科学者は、エルニーノなどの現象が、世界中の遠隔地で他の気候プロセスにどのような影響を与えるかを研究しています。
ただし、科学者は通常、地理的に分散した温度測定値などの低レベルの測定値を収集します。
これらから、エルニーノ現象やその他のプロセスの高レベル表現など、因果関係のある潜在変数へのマッピングと、それらの因果モデルの両方を学ぶ必要があります。
課題は、因果表現学習と呼ばれるこのタスクが観察データだけではかなり過小決定されており、不確定性を解決するには学習中に他の制約が必要であることです。
この研究では、スパース性を仮定した時間モデル、つまり単一親デコードを検討します。観測された各低レベル変数は、単一の潜在変数によってのみ影響を受けます。
このような仮定は、気候研究における地理的にグリッド化された測定データから領域を抽出したり、神経活動データから脳領域をキャプチャしたりするなど、低レベル変数のグループを見つける必要がある多くの科学的アプリケーションにおいて合理的です。
我々は、結果として得られるモデルの識別可能性を実証し、基礎となる潜在とそれらの因果グラフを同時に学習する微分可能な手法である単一親デコーディングによる因果発見 (CDSD) を提案します。
私たちは、シミュレートされたデータを使用して理論的結果の妥当性を評価し、気候科学分野の実世界データへの適用における私たちの方法の実際的な妥当性を示します。
要約(オリジナル)
Scientific research often seeks to understand the causal structure underlying high-level variables in a system. For example, climate scientists study how phenomena, such as El Ni\~no, affect other climate processes at remote locations across the globe. However, scientists typically collect low-level measurements, such as geographically distributed temperature readings. From these, one needs to learn both a mapping to causally-relevant latent variables, such as a high-level representation of the El Ni\~no phenomenon and other processes, as well as the causal model over them. The challenge is that this task, called causal representation learning, is highly underdetermined from observational data alone, requiring other constraints during learning to resolve the indeterminacies. In this work, we consider a temporal model with a sparsity assumption, namely single-parent decoding: each observed low-level variable is only affected by a single latent variable. Such an assumption is reasonable in many scientific applications that require finding groups of low-level variables, such as extracting regions from geographically gridded measurement data in climate research or capturing brain regions from neural activity data. We demonstrate the identifiability of the resulting model and propose a differentiable method, Causal Discovery with Single-parent Decoding (CDSD), that simultaneously learns the underlying latents and a causal graph over them. We assess the validity of our theoretical results using simulated data and showcase the practical validity of our method in an application to real-world data from the climate science field.
arxiv情報
| 著者 | Philippe Brouillard,Sébastien Lachapelle,Julia Kaltenborn,Yaniv Gurwicz,Dhanya Sridhar,Alexandre Drouin,Peer Nowack,Jakob Runge,David Rolnick |
| 発行日 | 2024-10-09 15:57:50+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google