Pre-training and in-context learning IS Bayesian inference a la De Finetti

要約

根底にある環境の不確実性を正確に測定することは、インテリジェント システムの長年の目標です。
私たちは、事前にトレーニングされたシーケンス モデルがどの潜在概念を自然に推論できるかを特徴付けます。
De Finetti のベイジアン推論の予測的見解に戻ります。De Finetti は、トピック モデルのように事前確率と尤度を通じて潜在パラメータをモデル化する代わりに、交換可能な (順列不変の) オブザーバブルのシーケンスをモデル化することを長年主張してきました。
この見解によれば、トレーニング前の自己回帰モデルは事前の観察に基づいて情報に基づいた信念を定式化し (「経験的ベイズ」)、前方生成は環境のシミュレートされたインスタンス化 (「事後推論」) です。
この接続により、インコンテキスト学習 (ICL) を予測設定を超えて拡張することができ、明示的な統計的推論を実行するシーケンス モデルの機能が強調されます。
特に、交換可能な文書における順序予測損失が、不確実性の定量化が鍵となる下流タスクのパフォーマンスを制御することを示します。
経験的に、シーケンスモデルアーキテクチャにおける交換可能性をエンコードするためのいくつかのアプローチ、つまりデータ拡張、正則化、および因果マスキングを提案し、実証します。

要約(オリジナル)

Accurately gauging uncertainty on the underlying environment is a longstanding goal of intelligent systems. We characterize which latent concepts pre-trained sequence models are naturally able to reason with. We go back to De Finetti’s predictive view of Bayesian reasoning: instead of modeling latent parameters through priors and likelihoods like topic models do, De Finetti has long advocated for modeling exchangeable (permutation invariant) sequences of observables. According to this view, pre-training autoregressive models formulates informed beliefs based on prior observations (‘empirical Bayes’), and forward generation is a simulated instantiation of an environment (‘posterior inference’). This connection allows extending in-context learning (ICL) beyond predictive settings, highlighting sequence models’ ability to perform explicit statistical inference. In particular, we show the sequence prediction loss over exchangeable documents controls performance on downstream tasks where uncertainty quantification is key. Empirically, we propose and demonstrate several approaches for encoding exchangeability in sequence model architectures: data augmentation, regularization, and causal masking.

arxiv情報

著者 Naimeng Ye,Hanming Yang,Andrew Siah,Hongseok Namkoong
発行日 2024-08-06 17:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク