要約
この論文では、独立したトークンごとのノイズ レベルで一連のトークンのノイズを除去するように拡散モデルをトレーニングする新しいトレーニング パラダイムである拡散強制について説明します。
過去のトークンを完全に拡散させることなく 1 つまたは複数の将来のトークンを生成する因果次トークン予測モデルをトレーニングすることにより、拡散強制をシーケンス生成モデリングに適用します。
私たちのアプローチは、可変長生成などのネクストトークン予測モデルの長所と、サンプリングを望ましい軌道に導く機能などのフルシーケンス拡散モデルの長所を組み合わせていることが示されています。
私たちの手法は、(1) ベースラインが分岐するトレーニング期間を超えた長さのビデオなどの連続トークンのロールアウト シーケンス、(2) 拡散から独自に利益を得る新しいサンプリングおよびガイド スキームなど、さまざまな追加機能を提供します。
Forcing の可変ホライズンおよび因果関係のアーキテクチャにより、意思決定および計画タスクのパフォーマンスが大幅に向上します。
経験的な成功に加えて、私たちの方法は、真の結合分布から抽出されたトークンのすべての部分列の尤度の変分下限を最適化することが証明されています。
プロジェクトウェブサイト:https://boyuan.space/diffusion-forcing/
要約(オリジナル)
This paper presents Diffusion Forcing, a new training paradigm where a diffusion model is trained to denoise a set of tokens with independent per-token noise levels. We apply Diffusion Forcing to sequence generative modeling by training a causal next-token prediction model to generate one or several future tokens without fully diffusing past ones. Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories. Our method offers a range of additional capabilities, such as (1) rolling-out sequences of continuous tokens, such as video, with lengths past the training horizon, where baselines diverge and (2) new sampling and guiding schemes that uniquely profit from Diffusion Forcing’s variable-horizon and causal architecture, and which lead to marked performance gains in decision-making and planning tasks. In addition to its empirical success, our method is proven to optimize a variational lower bound on the likelihoods of all subsequences of tokens drawn from the true joint distribution. Project website: https://boyuan.space/diffusion-forcing/
arxiv情報
著者 | Boyuan Chen,Diego Marti Monso,Yilun Du,Max Simchowitz,Russ Tedrake,Vincent Sitzmann |
発行日 | 2024-07-02 15:39:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google