Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

要約

本論文では、拡散モデルを訓練して、トークンごとに独立したノイズレベルを持つトークンの集合をノイズ除去する、新しい訓練パラダイムである拡散強制(Diffusion Forcing)を提示する。本論文では、拡散強制をシーケンス生成モデリングに適用し、過去のトークンを完全に拡散させることなく、1つまたは複数の未来のトークンを生成する因果的なネクストトークン予測モデルを学習する。本アプローチは、可変長生成などのネクストトークン予測モデルの長所と、サンプリングを望ましい軌道に導く能力などの全シーケンス拡散モデルの長所を組み合わせることを示す。我々の手法は、(1)ベースラインが発散する学習ホライズンを超えた長さの、ビデオのような連続トークンのシーケンスのロールアウト、(2)Diffusion Forcingの可変ホライズンと因果アーキテクチャからユニークに利益を得る新しいサンプリングとガイドスキーム、など、様々な追加機能を提供し、意思決定や計画タスクにおいて顕著な性能向上をもたらす。経験的な成功に加え、我々の方法は、真の結合分布から引き出されたトークンの全ての部分系列の尤度に対する変分下界を最適化することが証明されている。プロジェクトウェブサイト: https://boyuan.space/diffusion-forcing

要約(オリジナル)

This paper presents Diffusion Forcing, a new training paradigm where a diffusion model is trained to denoise a set of tokens with independent per-token noise levels. We apply Diffusion Forcing to sequence generative modeling by training a causal next-token prediction model to generate one or several future tokens without fully diffusing past ones. Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories. Our method offers a range of additional capabilities, such as (1) rolling-out sequences of continuous tokens, such as video, with lengths past the training horizon, where baselines diverge and (2) new sampling and guiding schemes that uniquely profit from Diffusion Forcing’s variable-horizon and causal architecture, and which lead to marked performance gains in decision-making and planning tasks. In addition to its empirical success, our method is proven to optimize a variational lower bound on the likelihoods of all subsequences of tokens drawn from the true joint distribution. Project website: https://boyuan.space/diffusion-forcing

arxiv情報

著者 Boyuan Chen,Diego Marti Monso,Yilun Du,Max Simchowitz,Russ Tedrake,Vincent Sitzmann
発行日 2024-07-04 04:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク