要約
有向非巡回グラフ (DAG) の微分可能構造学習に対する既存のアプローチは、非巡回性制約付き最適化問題のグローバル ミニマイザーが真の DAG を識別することを保証するために、強力な識別可能性の仮定に依存しています。
さらに、オプティマイザが損失関数内の望ましくないアーティファクトを悪用する可能性があることが経験的に観察されています。
複数のグローバル ミニマイザーを使用して、一般尤度の下で微分可能な非循環性制約付きプログラムの動作を研究することで、これらの問題を説明し、解決します。
尤度を注意深く正則化することにより、識別可能なパラメータ化がない場合でも、マルコフ同値クラス内の最も疎なモデルを識別することが可能です。
まず、ガウスの場合を詳細に検討し、尤度の適切な正則化によって最も疎なモデルを識別するスコアがどのように定義されるかを示します。
忠実であると仮定すると、マルコフ等価クラスも回復します。
これらの結果は、同じ主張が当てはまる一般モデルと尤度に一般化されます。
これらの理論的結果は経験的に検証され、標準的な勾配ベースのオプティマイザーを使用してこれをどのように実行できるかを示し、一般的なモデルと損失の下で微分可能な構造学習への道を開きます。
要約(オリジナル)
Existing approaches to differentiable structure learning of directed acyclic graphs (DAGs) rely on strong identifiability assumptions in order to guarantee that global minimizers of the acyclicity-constrained optimization problem identifies the true DAG. Moreover, it has been observed empirically that the optimizer may exploit undesirable artifacts in the loss function. We explain and remedy these issues by studying the behavior of differentiable acyclicity-constrained programs under general likelihoods with multiple global minimizers. By carefully regularizing the likelihood, it is possible to identify the sparsest model in the Markov equivalence class, even in the absence of an identifiable parametrization. We first study the Gaussian case in detail, showing how proper regularization of the likelihood defines a score that identifies the sparsest model. Assuming faithfulness, it also recovers the Markov equivalence class. These results are then generalized to general models and likelihoods, where the same claims hold. These theoretical results are validated empirically, showing how this can be done using standard gradient-based optimizers, thus paving the way for differentiable structure learning under general models and losses.
arxiv情報
著者 | Chang Deng,Kevin Bello,Pradeep Ravikumar,Bryon Aragam |
発行日 | 2024-10-16 16:40:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google