$\texttt{causalAssembly}$: Generating Realistic Production Data for Benchmarking Causal Discovery

要約

因果関係発見のためのアルゴリズムは最近急速に進歩しており、複雑なデータを処理するために柔軟なノンパラメトリック手法を利用することが増えています。
これらの進歩に伴い、さまざまなアルゴリズムによって学習された因果関係を適切に経験的に検証する必要性が生じています。
ただし、実際のデータ ソースのほとんどについては、真の因果関係は不明のままです。
この問題は、適切な高品質データのリリースに関するプライバシー上の懸念によってさらに悪化します。
これらの課題に対処するために、私たちは製造現場の組立ラインからの測定値を含む複雑なデータセットを収集します。
この線は、基礎となる物理学の詳細な研究に基づいて、真実の因果関係を提供できる多数の物理プロセスで構成されています。
当社は、組立ライン データと関連するグラウンド トゥルース情報を使用して、因果関係発見方法のベンチマークをサポートする半合成製造データを生成するシステムを構築します。
これを達成するために、分布ランダム フォレストを使用して、観測変数に対する因果モデルに厳密に従う結合分布に結合できる条件付き分布を柔軟に推定して表現します。
データ生成のための推定条件とツールは、Python ライブラリ $\texttt{causalAssembly}$ で利用可能です。
このライブラリを使用して、いくつかのよく知られた因果関係発見アルゴリズムのベンチマークを行う方法を紹介します。

要約(オリジナル)

Algorithms for causal discovery have recently undergone rapid advances and increasingly draw on flexible nonparametric methods to process complex data. With these advances comes a need for adequate empirical validation of the causal relationships learned by different algorithms. However, for most real data sources true causal relations remain unknown. This issue is further compounded by privacy concerns surrounding the release of suitable high-quality data. To help address these challenges, we gather a complex dataset comprising measurements from an assembly line in a manufacturing context. This line consists of numerous physical processes for which we are able to provide ground truth causal relationships on the basis of a detailed study of the underlying physics. We use the assembly line data and associated ground truth information to build a system for generation of semisynthetic manufacturing data that supports benchmarking of causal discovery methods. To accomplish this, we employ distributional random forests in order to flexibly estimate and represent conditional distributions that may be combined into joint distributions that strictly adhere to a causal model over the observed variables. The estimated conditionals and tools for data generation are made available in our Python library $\texttt{causalAssembly}$. Using the library, we showcase how to benchmark several well-known causal discovery algorithms.

arxiv情報

著者 Konstantin Göbler,Tobias Windisch,Mathias Drton,Tim Pychynski,Steffen Sonntag,Martin Roth
発行日 2024-02-14 17:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク