Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise

要約

この論文では、GENIE と呼ばれる、テキスト生成のための新しい分散言語 modEl 事前トレーニング フレームワークを紹介します。
GENIE は、エンコーダーと拡散ベースのデコーダーで構成される大規模な事前トレーニング済み拡散言語モデルであり、ランダム ノイズ シーケンスを一貫したテキスト シーケンスに徐々に変換することによってテキストを生成できます。
大規模な言語コーパスで GENIE を事前トレーニングするために、意味と構文の一貫性を維持しながら、拡散デコーダーが破損したバージョンからクリーンなテキスト パラグラフを再構築することを促進する、新しい連続パラグラフ ノイズ除去目標を設計します。
XSum、CNN/DailyMail、Gigaword、および CommonGen という 4 つのダウンストリーム テキスト生成ベンチマークで GENIE を評価します。
私たちの実験結果は、GENIE がこれらのベンチマークで最先端の自己回帰モデルと同等のパフォーマンスを達成し、より多様なテキスト サンプルを生成することを示しています。
GENIE のコードとモデルは、https://github.com/microsoft/ProphetNet/tree/master/GENIE で入手できます。

要約(オリジナル)

In this paper, we introduce a novel dIffusion language modEl pre-training framework for text generation, which we call GENIE. GENIE is a large-scale pretrained diffusion language model that consists of an encoder and a diffusion-based decoder, which can generate text by gradually transforming a random noise sequence into a coherent text sequence. To pre-train GENIE on a large-scale language corpus, we design a new continuous paragraph denoise objective, which encourages the diffusion-decoder to reconstruct a clean text paragraph from a corrupted version, while preserving the semantic and syntactic coherence. We evaluate GENIE on four downstream text generation benchmarks, namely XSum, CNN/DailyMail, Gigaword, and CommonGen. Our experimental results show that GENIE achieves comparable performance with the state-of-the-art autoregressive models on these benchmarks, and generates more diverse text samples. The code and models of GENIE are available at https://github.com/microsoft/ProphetNet/tree/master/GENIE.

arxiv情報

著者 Zhenghao Lin,Yeyun Gong,Yelong Shen,Tong Wu,Zhihao Fan,Chen Lin,Nan Duan,Weizhu Chen
発行日 2023-02-17 17:14:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク