Amortizing intractable inference in large language models

要約

自己回帰大規模言語モデル (LLM) は、次のトークンの条件付き分布を通じてトレーニング データからの知識を圧縮します。
これにより、この知識の扱いやすいクエリが最初から最後までの自己回帰サンプリングに制限されます。
ただし、シーケンスの継続、充填、その他の形式の制約付き生成を含む、多くの興味深いタスクには、扱いにくい事後分布からのサンプリングが含まれます。
私たちは、償却ベイズ推論を使用してこれらの扱いにくい事後からサンプリングすることで、この制限に対処します。
このような償却は、多様性を追求した強化学習アルゴリズムである生成フロー ネットワーク (GFlowNets) を介して LLM を微調整することによって、アルゴリズム的に実現されます。
我々は、LLM 微調整のこの分布マッチング パラダイムが、最尤トレーニングや報酬最大化ポリシーの最適化に代わる効果的な手段として機能できることを経験的に示しています。
重要な応用として、私たちは思考連鎖推論を潜在変数モデリング問題として解釈し、私たちのアプローチにより、複数ステップの合理化とツールの使用を必要とするタスクへの LLM のデータ効率的な適応が可能になることを実証します。

要約(オリジナル)

Autoregressive large language models (LLMs) compress knowledge from their training data through next-token conditional distributions. This limits tractable querying of this knowledge to start-to-end autoregressive sampling. However, many tasks of interest — including sequence continuation, infilling, and other forms of constrained generation — involve sampling from intractable posterior distributions. We address this limitation by using amortized Bayesian inference to sample from these intractable posteriors. Such amortization is algorithmically achieved by fine-tuning LLMs via diversity-seeking reinforcement learning algorithms: generative flow networks (GFlowNets). We empirically demonstrate that this distribution-matching paradigm of LLM fine-tuning can serve as an effective alternative to maximum-likelihood training and reward-maximizing policy optimization. As an important application, we interpret chain-of-thought reasoning as a latent variable modeling problem and demonstrate that our approach enables data-efficient adaptation of LLMs to tasks that require multi-step rationalization and tool use.

arxiv情報

著者 Edward J. Hu,Moksh Jain,Eric Elmoznino,Younesse Kaddar,Guillaume Lajoie,Yoshua Bengio,Nikolay Malkin
発行日 2023-10-06 16:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク