Variational Inference for Uncertainty Quantification: an Analysis of Trade-offs

要約

扱いにくい分布 $p$ が与えられた場合、変分推論 (VI) の問題は、より扱いやすい族 $Q$ から最良の近似を見つけることです。
一般に、~$p$ 自体は因数分解しない場合でも、$Q$ を因数分解された分布の族 (つまり、平均場の仮定) として選択します。
この不一致が不可能性定理につながることを示します。$p$ が因数分解しない場合、因数分解された近似 $q\in Q$ は、次の 3 つの不確実性尺度のうち最大 1 つを正確に推定できます: (i) 周辺分散、
(ii) 限界精度、または (iii) 一般化分散 (エントロピーに関連する可能性があります)。
実際には、$Q$ の最良の変分近似は、分布間の発散 $D(q,p)$ を最小限に抑えることによって見つけられます。したがって、発散の選択によって、どのような不確実性の尺度が正しいかをどのように決定するのでしょうか。
VIによる推定?
古典的なカルバック・ライブラー発散、より一般的な R\’enyi 発散、および $\nabla \log p$ と $\nabla \log q$ を比較するスコアベースの発散を考慮します。
$p$ がガウス分布、$q$ が (因数分解された) ガウス分布であるという設定で、徹底的な理論的分析を提供します。
考慮されたすべての発散は、~VI の目的関数として生成される不確実性の推定に基づいて \textit{順序付け} できることを示します。
最後に、ターゲット分布 $p$ がガウス分布でない場合のこの順序付けの妥当性を経験的に評価します。

要約(オリジナル)

Given an intractable distribution $p$, the problem of variational inference (VI) is to find the best approximation from some more tractable family $Q$. Commonly, one chooses $Q$ to be a family of factorized distributions (i.e., the mean-field assumption), even though~$p$ itself does not factorize. We show that this mismatch leads to an impossibility theorem: if $p$ does not factorize, then any factorized approximation $q\in Q$ can correctly estimate at most one of the following three measures of uncertainty: (i) the marginal variances, (ii) the marginal precisions, or (iii) the generalized variance (which can be related to the entropy). In practice, the best variational approximation in $Q$ is found by minimizing some divergence $D(q,p)$ between distributions, and so we ask: how does the choice of divergence determine which measure of uncertainty, if any, is correctly estimated by VI? We consider the classic Kullback-Leibler divergences, the more general R\’enyi divergences, and a score-based divergence which compares $\nabla \log p$ and $\nabla \log q$. We provide a thorough theoretical analysis in the setting where $p$ is a Gaussian and $q$ is a (factorized) Gaussian. We show that all the considered divergences can be \textit{ordered} based on the estimates of uncertainty they yield as objective functions for~VI. Finally, we empirically evaluate the validity of this ordering when the target distribution $p$ is not Gaussian.

arxiv情報

著者 Charles C. Margossian,Loucas Pillaud-Vivien,Lawrence K. Saul
発行日 2024-06-07 14:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML パーマリンク