AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

要約

拡散モデルは、その優れたパフォーマンスにより、画像生成の分野で大きな注目を集めています。
彼らの成功は、最近、シーケンス内のすべてのトークンを同時に生成することによるテキスト生成にまで拡大されました。
ただし、自然言語は画像に比べてはるかに顕著な逐次依存関係を示し、既存の言語モデルの大部分は左から右への自己回帰アプローチを利用してトレーニングされています。
自然言語の固有の逐次特性を説明するために、自己回帰拡散 (AR-Difffusion) を導入します。
AR 拡散により、右側のトークンの生成が左側で生成されたトークンに依存することが保証されます。このメカニズムは、トークンの位置に基づいて変化する動的ノイズ除去ステップの数を採用することで実現されます。
これにより、左側のトークンは右側のトークンよりもノイズ除去ステップが少なくなり、より早く生成され、その後右側のトークンの生成に影響を与えることが可能になります。
テキストの要約、機械翻訳、常識生成などのさまざまなテキスト生成タスクに関する一連の実験で、AR-Diffusion は既存の拡散言語モデルよりも優れていること、および達成時に $100\times\sim600\times$ 高速化できることを明確に実証しました。
比較可能な結果。
私たちのコードは公開される予定です。

要約(オリジナル)

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained utilizing a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated the superiority over existing diffusion language models and that it can be $100\times\sim600\times$ faster when achieving comparable results. Our code will be publicly released.

arxiv情報

著者 Tong Wu,Zhihao Fan,Xiao Liu,Yeyun Gong,Yelong Shen,Jian Jiao,Hai-Tao Zheng,Juntao Li,Zhongyu Wei,Jian Guo,Nan Duan,Weizhu Chen
発行日 2023-05-16 15:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク