要約
観測値がほとんどない多くの変数間の条件付き独立構造を研究することは、困難な作業です。
ガウス グラフィカル モデル (GGM) は、$p\leq1$ による $l_p$ 正則化を通じて精度行列のスパース性を促進することで、この問題に取り組みます。
ただし、$l_1$ 未満の擬似ノルムでは目的が高度に非凸であるため、ほとんどのアプローチは $l_1$ ノルムに依存します。
この場合、頻度主義的なアプローチにより、収縮パラメーター $\lambda$ の関数として解経路をエレガントに計算できます。
ペナルティ付き尤度を最適化する代わりに、ベイズ定式化では精度行列に事前にラプラスを導入します。
ただし、異なる $\lambda$ 値の事後推論には、高価な Gibbs サンプラーを繰り返し実行する必要があります。
我々は、頻度主義フレームワークとベイズ主義フレームワークの利点を統合する、GGM における変分推論のための非常に一般的なフレームワークを提案します。
具体的には、対称正定行列の空間上で定義された行列変量正規化フローを使用して事後分布を近似することを提案します。
以前の研究に対する重要な改良点として、すべての正則化パラメータ $\lambda$ と、非凸のサブ $l_1$ 擬似ノルムを含むすべての $l_p$ ノルムに対して、一連のスパース回帰モデルを共同でトレーニングします。
これは、$p>0$ および収縮パラメータ $\lambda$ で流れを調整することによって実現されます。
次に、1 つのモデルを使用して、(i) 任意の $\lambda$ および任意の $l_p$ (擬似) ノルムの事後発展、(ii) モデル選択の周辺対数尤度、および (iii) にアクセスできます。
シミュレーテッドアニーリングを通じて得られる頻度主義的な解パスを MAP として復元できます。
要約(オリジナル)
Studying conditional independence structure among many variables with few observations is a challenging task. Gaussian Graphical Models (GGMs) tackle this problem by encouraging sparsity in the precision matrix through an $l_p$ regularization with $p\leq1$. However, since the objective is highly non-convex for sub-$l_1$ pseudo-norms, most approaches rely on the $l_1$ norm. In this case frequentist approaches allow to elegantly compute the solution path as a function of the shrinkage parameter $\lambda$. Instead of optimizing the penalized likelihood, the Bayesian formulation introduces a Laplace prior on the precision matrix. However, posterior inference for different $\lambda$ values requires repeated runs of expensive Gibbs samplers. We propose a very general framework for variational inference in GGMs that unifies the benefits of frequentist and Bayesian frameworks. Specifically, we propose to approximate the posterior with a matrix-variate Normalizing Flow defined on the space of symmetric positive definite matrices. As a key improvement on previous work, we train a continuum of sparse regression models jointly for all regularization parameters $\lambda$ and all $l_p$ norms, including non-convex sub-$l_1$ pseudo-norms. This is achieved by conditioning the flow on $p>0$ and on the shrinkage parameter $\lambda$. We have then access with one model to (i) the evolution of the posterior for any $\lambda$ and for any $l_p$ (pseudo-) norms, (ii) the marginal log-likelihood for model selection, and (iii) we can recover the frequentist solution paths as the MAP, which is obtained through simulated annealing.
arxiv情報
著者 | Marcello Massimo Negri,F. Arend Torres,Volker Roth |
発行日 | 2023-06-12 17:25:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google