Amortized In-Context Bayesian Posterior Estimation

要約

ベイジアン推論は、事前の信念を組み込み、仮説の空間に確率尺度を割り当てる自然な方法を提供します。
現在のソリューションは、マルコフチェーンモンテカルロ(MCMC)サンプリングや変分推論(VI)などの反復ルーチンに依存しています。
条件推定を通じて、償却はそのような困難を緩和するための実行可能な戦略であり、シミュレーションベースの推論、神経プロセス、および事前に訓練されたモデルを使用したコンテキスト内のメソッドの指針となっています。
この作業では、さまざまな最適化目標と建築的選択のレンズから、償却されたコンテキスト内のベイジアン後部推定方法の徹底的な比較分析を実施します。
このような方法は、変圧器などのシーケンスモデルにコンテキストとして渡された一連のデータ例を条件付けすることにより、後部パラメーター推論を実行するために償却推定器を訓練します。
言語モデルとは対照的に、真の後方はコンテキストの例の順序に不変であるため、順列不変アーキテクチャを活用します。
私たちの経験的研究には、分散除外タスクへの一般化、想定されている基礎モデルが誤って指定されている場合、シミュレートされた問題から実際の問題への転送が含まれます。
その後、特に変圧器アーキテクチャと正規化フローと組み合わせた場合、予測問題に対する逆KL推定器の優位性を強調します。

要約(オリジナル)

Bayesian inference provides a natural way of incorporating prior beliefs and assigning a probability measure to the space of hypotheses. Current solutions rely on iterative routines like Markov Chain Monte Carlo (MCMC) sampling and Variational Inference (VI), which need to be re-run whenever new observations are available. Amortization, through conditional estimation, is a viable strategy to alleviate such difficulties and has been the guiding principle behind simulation-based inference, neural processes and in-context methods using pre-trained models. In this work, we conduct a thorough comparative analysis of amortized in-context Bayesian posterior estimation methods from the lens of different optimization objectives and architectural choices. Such methods train an amortized estimator to perform posterior parameter inference by conditioning on a set of data examples passed as context to a sequence model such as a transformer. In contrast to language models, we leverage permutation invariant architectures as the true posterior is invariant to the ordering of context examples. Our empirical study includes generalization to out-of-distribution tasks, cases where the assumed underlying model is misspecified, and transfer from simulated to real problems. Subsequently, it highlights the superiority of the reverse KL estimator for predictive problems, especially when combined with the transformer architecture and normalizing flows.

arxiv情報

著者 Sarthak Mittal,Niels Leif Bracher,Guillaume Lajoie,Priyank Jaini,Marcus Brubaker
発行日 2025-02-10 16:00:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク