TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings

要約

さまざまな分野での拡散モデルの成功からインスピレーションを得て、多くの研究論文が拡散モデルをテキスト データに適用する方法を提案しました。
これらの努力にもかかわらず、いずれも大規模な言語モデルの品質を達成することはできませんでした。
このペーパーでは、テキスト拡散モデルの主要コンポーネントの包括的な分析を実行し、テキスト エンコーディング拡散モデル (TEncDM) と呼ばれる新しいアプローチを紹介します。
一般的に使用されるトークン埋め込み空間の代わりに、言語モデルのエンコーディングの空間でモデルをトレーニングします。
さらに、テキスト再構築にコンテキスト情報を利用する Transformer ベースのデコーダを使用することを提案します。
また、自己調整を分析したところ、自己調整によりモデル出力の大きさが増加し、推論段階でのノイズ除去ステップ数の削減が可能になることがわかりました。
2 つのダウンストリーム テキスト生成タスク、QQP および XSum での TEncDM の評価により、既存の非自己回帰モデルに対する TEncDM の優位性が実証されました。

要約(オリジナル)

Drawing inspiration from the success of diffusion models in various domains, numerous research papers proposed methods for adapting them to text data. Despite these efforts, none of them has managed to achieve the quality of the large language models. In this paper, we conduct a comprehensive analysis of key components of the text diffusion models and introduce a novel approach named Text Encoding Diffusion Model (TEncDM). Instead of the commonly used token embedding space, we train our model in the space of the language model encodings. Additionally, we propose to use a Transformer-based decoder that utilizes contextual information for text reconstruction. We also analyse self-conditioning and find that it increases the magnitude of the model outputs, allowing the reduction of the number of denoising steps at the inference stage. Evaluation of TEncDM on two downstream text generation tasks, QQP and XSum, demonstrates its superiority over existing non-autoregressive models.

arxiv情報

著者 Alexander Shabalin,Viacheslav Meshchaninov,Tingir Badmaev,Dmitry Molchanov,Grigory Bartosh,Sergey Markov,Dmitry Vetrov
発行日 2024-02-29 12:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2 パーマリンク