Amortized Variational Inference: When and Why?

要約

償却変分推論 (A-VI) は、確率モデルで生じる扱いにくい事後分布を近似する方法です。
A-VI の特徴は、各観測値をローカル潜在変数の近似事後分布にマッピングするグローバル推論関数を学習することです。
これは、各潜在変数の近似分布のパラメーターを直接学習する、より古典的な因数分解 (または平均場) 変分推論 (F-VI) とは対照的です。
深い生成モデルでは、A-VI はローカル潜在変数の推論を高速化するための計算トリックとして使用されます。
この論文では、近似事後推論のための F-VI の一般的な代替手段として A-VI を研究します。
A-VI は、償却ファミリが因数分解ファミリのサブセットであるため、F-VI の最適解よりも低いカルバック ライブラー発散による近似を生成できません。
したがって、中心的な理論的問題は、A-VI が依然として F-VI の最適解に到達する時期を特徴付けることです。
A-VI が理論的に F-VI の最適値を達成できるモデルと推論関数の両方の条件を導き出します。
深い生成モデルを含む広範なクラスの階層モデルについて、A-VI と F-VI の間のギャップを埋めることが可能であることを示します。
さらに、さらに幅広いクラスのモデルについて、償却を実行可能な戦略にするために推論関数の領域をいつどのように拡張するかを確立します。
最後に、隠れマルコフ モデルやガウス過程を含む特定のモデルについては、推論関数の表現力がどれほど高くても、A-VI は F-VI の解に匹敵できないことを証明します。
私たちはまた、A-VI を実証的に研究しています […]

要約(オリジナル)

Amortized variational inference (A-VI) is a method for approximating the intractable posterior distributions that arise in probabilistic models. The defining feature of A-VI is that it learns a global inference function that maps each observation to its local latent variable’s approximate posterior. This stands in contrast to the more classical factorized (or mean-field) variational inference (F-VI), which directly learns the parameters of the approximating distribution for each latent variable. In deep generative models, A-VI is used as a computational trick to speed up inference for local latent variables. In this paper, we study A-VI as a general alternative to F-VI for approximate posterior inference. A-VI cannot produce an approximation with a lower Kullback-Leibler divergence than F-VI’s optimal solution, because the amortized family is a subset of the factorized family. Thus a central theoretical problem is to characterize when A-VI still attains F-VI’s optimal solution. We derive conditions on both the model and the inference function under which A-VI can theoretically achieve F-VI’s optimum. We show that for a broad class of hierarchical models, including deep generative models, it is possible to close the gap between A-VI and F-VI. Further, for an even broader class of models, we establish when and how to expand the domain of the inference function to make amortization a feasible strategy. Finally, we prove that for certain models — including hidden Markov models and Gaussian processes — A-VI cannot match F-VI’s solution, no matter how expressive the inference function is. We also study A-VI empirically […]

arxiv情報

著者 Charles C. Margossian,David M. Blei
発行日 2023-07-20 16:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク