Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling

要約

マスク拡散モデル (MDM) は、他の離散拡散モデルよりも優れたパフォーマンスを備えているため、離散データの生成モデリングの人気の研究トピックとして浮上しており、言語モデリング タスクでは自己回帰モデル (ARM) に匹敵します。
マスクされた拡散フレームワークを簡素化する最近の取り組みにより、連続空間拡散モデルとの整合性がさらに高まり、より原理的なトレーニングとサンプリングのレシピが実現しました。
しかし、この論文では、MDM のトレーニングとサンプリングの両方が理論的には時間変数 (おそらく拡散モデルの主要なシグネチャ) から解放され、代わりにマスクされたモデルと同等であることを明らかにします。
サンプリング面での接続は、私たちが提案する先打サンプラー (FHS) によって描画されます。
具体的には、FHS が理論的には MDM の元の生成プロセスと同等であると同時に、時間のかかるカテゴリカル サンプリングを大幅に軽減し、20$\times$ の高速化を達成することを示します。
さらに、私たちの調査は、MDM が生成の複雑さにおいて ARM を上回る可能性があるというこれまでの主張に異議を唱えています。
私たちは、32 ビット浮動小数点精度であっても、カテゴリカル サンプリングが不正確になるという根本的な数値問題を初めて特定しました。
我々は、数値の問題が理論的にも経験的にも実効温度を低下させ、以前の文献における MDM の生成結果の不公平な評価につながることを示します。

要約(オリジナル)

Masked diffusion models (MDMs) have emerged as a popular research topic for generative modeling of discrete data, thanks to their superior performance over other discrete diffusion models, and are rivaling the auto-regressive models (ARMs) for language modeling tasks. The recent effort in simplifying the masked diffusion framework further leads to alignment with continuous-space diffusion models and more principled training and sampling recipes. In this paper, however, we reveal that both training and sampling of MDMs are theoretically free from the time variable, arguably the key signature of diffusion models, and are instead equivalent to masked models. The connection on the sampling aspect is drawn by our proposed first-hitting sampler (FHS). Specifically, we show that the FHS is theoretically equivalent to MDMs’ original generation process while significantly alleviating the time-consuming categorical sampling and achieving a 20$\times$ speedup. In addition, our investigation challenges previous claims that MDMs can surpass ARMs in generative perplexity. We identify, for the first time, an underlying numerical issue, even with the 32-bit floating-point precision, which results in inaccurate categorical sampling. We show that the numerical issue lowers the effective temperature both theoretically and empirically, leading to unfair assessments of MDMs’ generation results in the previous literature.

arxiv情報

著者 Kaiwen Zheng,Yongxin Chen,Hanzi Mao,Ming-Yu Liu,Jun Zhu,Qinsheng Zhang
発行日 2024-09-04 17:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク