A Cheaper and Better Diffusion Language Model with Soft-Masked Noise

要約

タイトル:ソフト・マスク・ノイズを用いた安価で高性能な拡散言語モデル

要約:
– 拡散モデルは、反復的なノイズ除去に基づいたもので、最近、画像生成などのさまざまな生成タスクで利用されている。
– しかし、連続データに固有の方法として構築された既存の拡散モデルは、言語などの離散データをモデリングする際にまだいくつかの制限がある。
– 例えば、一般的に使用されるガウスノイズは、離散的な破壊をうまく扱えず、拡散プロセスでのテキストデータの次元が高い場合、連続空間の目的はテキストデータでは安定しなくなる。
– これらの問題を緩和するために、我々は Masked-Diffuse LM という言語モデリング用の新しい拡散モデルを提案し、言語内の言語的機能に着想を得て、トレーニングコストを低くし、性能を向上させる。
– 具体的には、テキストデータをよりノイズにするために、戦略的にソフトマスクを使用してテキストに破壊を加える言語情報に基づく前進プロセスを設計した。
– また、拡散ステップごとにクロスエントロピー損失関数でカテゴリー分布を直接予測して、連続空間と離散空間をより効率的かつ直接的な方法で接続した。
– 5つの制御された生成タスクでの実験により、Masked-Diffuse LMが最新の拡散モデルよりも高い性能と効率を実現できることを示した。

要約(オリジナル)

Diffusion models that are based on iterative denoising have been recently proposed and leveraged in various generation tasks like image generation. Whereas, as a way inherently built for continuous data, existing diffusion models still have some limitations in modeling discrete data, e.g., languages. For example, the generally used Gaussian noise can not handle the discrete corruption well, and the objectives in continuous spaces fail to be stable for textual data in the diffusion process especially when the dimension is high. To alleviate these issues, we introduce a novel diffusion model for language modeling, Masked-Diffuse LM, with lower training cost and better performances, inspired by linguistic features in languages. Specifically, we design a linguistic-informed forward process which adds corruptions to the text through strategically soft-masking to better noise the textual data. Also, we directly predict the categorical distribution with cross-entropy loss function in every diffusion step to connect the continuous space and discrete space in a more efficient and straightforward way. Through experiments on 5 controlled generation tasks, we demonstrate that our Masked-Diffuse LM can achieve better generation quality than the state-of-the-art diffusion models with better efficiency.

arxiv情報

著者 Jiaao Chen,Aston Zhang,Mu Li,Alex Smola,Diyi Yang
発行日 2023-04-10 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク