Discrete Diffusion Language Model for Efficient Text Summarization

要約

拡散モデルは高品質の画像を生成する条件付きで優れていますが、離散拡散モデルの以前の作業は条件付きの長所生成で評価されませんでした。
この作業では、特に抽象的な要約などの長いシーケンスからシーケンスからシーケンスへのタスクで、条件付きの長所生成に関する以前の離散拡散モデルの制限に対処します。
自己回帰方法と比較して速いデコード速度にもかかわらず、バックボーンアーキテクチャとランダムノージングプロセスの間の非互換性により、抽象的な要約タスクで以前の拡散モデルは失敗しました。
これらの課題を克服するために、変圧器のバックボーンが長いシーケンスを効果的に処理できるようにする新しいセマンティックに対応するノイズプロセスを導入します。
さらに、Crossmambaを提案します。Crossmambaは、Mambaモデルのエンコーダーデコーダーパラダイムへの適応を提案します。これは、ランダムな吸収ノーシングプロセスとシームレスに統合されます。
私たちのアプローチは、Gigaword、CNN/Dailymail、およびArxivの3つのベンチマーク要約データセットで最先端のパフォーマンスを実現し、Rouge Metricsの既存の離散拡散モデルを上回り、自己誘導モデルと比較して推論ではるかに速い速度を持っています。

要約(オリジナル)

While diffusion models excel at conditional generating high-quality images, prior works in discrete diffusion models were not evaluated on conditional long-text generation. In this work, we address the limitations of prior discrete diffusion models for conditional long-text generation, particularly in long sequence-to-sequence tasks such as abstractive summarization. Despite fast decoding speeds compared to autoregressive methods, previous diffusion models failed on the abstractive summarization task due to the incompatibility between the backbone architectures and the random noising process. To overcome these challenges, we introduce a novel semantic-aware noising process that enables Transformer backbones to handle long sequences effectively. Additionally, we propose CrossMamba, an adaptation of the Mamba model to the encoder-decoder paradigm, which integrates seamlessly with the random absorbing noising process. Our approaches achieve state-of-the-art performance on three benchmark summarization datasets: Gigaword, CNN/DailyMail, and Arxiv, outperforming existing discrete diffusion models on ROUGE metrics as well as possessing much faster speed in inference compared to autoregressive models.

arxiv情報

著者 Do Huu Dat,Do Duc Anh,Anh Tuan Luu,Wray Buntine
発行日 2025-03-10 08:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク