要約
普及ベースの言語モデルへの関心が高まっているにもかかわらず、既存の研究では、これらのモデルが標準の言語モデリング ベンチマークで自明ではない可能性を達成できることは示されていません。
この作業では、小規模ではあるが広く知られている自己回帰モデルを上回る拡散モデルを構築してリリースすることを目標に、自己回帰言語モデルと拡散ベースの言語モデルの間の尤度ギャップを埋めるための最初の一歩を踏み出します。
私たちはアルゴリズムの改善、スケーリングの法則、コンピューティングの向上を通じてこの目標を追求します。
アルゴリズムの面では、拡散言語モデルの最尤トレーニングのためのいくつかの方法論的な改善を導入します。
次に、拡散モデルのスケーリング則を研究し、自己回帰モデルとは大幅に異なる、計算に最適なトレーニング計画を見つけます。
私たちの手法とスケーリング分析を使用して、ベンチマーク データセットでの可能性で GPT-2 124M を上回る大規模な拡散言語モデルである Plaid 1B をトレーニングしてリリースし、無条件およびゼロショット制御設定で流暢なサンプルを生成します。
要約(オリジナル)
Despite a growing interest in diffusion-based language models, existing work has not shown that these models can attain nontrivial likelihoods on standard language modeling benchmarks. In this work, we take the first steps towards closing the likelihood gap between autoregressive and diffusion-based language models, with the goal of building and releasing a diffusion model which outperforms a small but widely-known autoregressive model. We pursue this goal through algorithmic improvements, scaling laws, and increased compute. On the algorithmic front, we introduce several methodological improvements for the maximum-likelihood training of diffusion language models. We then study scaling laws for our diffusion models and find compute-optimal training regimes which differ substantially from autoregressive models. Using our methods and scaling analysis, we train and release Plaid 1B, a large diffusion language model which outperforms GPT-2 124M in likelihood on benchmark datasets and generates fluent samples in unconditional and zero-shot control settings.
arxiv情報
著者 | Ishaan Gulrajani,Tatsunori B. Hashimoto |
発行日 | 2023-05-30 16:43:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google