LOCOST: State-Space Models for Long Document Abstractive Summarization

要約

状態空間モデルは、長いシーケンスをエンコードし、長期的な依存関係をキャプチャするためのトランスフォーマーに代わる、複雑さの低い代替手段です。
私たちは LOCOST を提案します。LOCOST は、長いコンテキスト入力による条件付きテキスト生成のための状態空間モデルに基づくエンコーダー/デコーダー アーキテクチャです。
$O(L \log L)$ の計算量を備えたこのアーキテクチャは、まばらな注意パターンに基づく最先端のモデルよりも大幅に長いシーケンスを処理できます。
一連の長い文書の抽象的な要約タスクに基づいてモデルを評価します。
このモデルは、同じサイズの最高パフォーマンスのスパース トランスフォーマーと同等の 93 ~ 96% のパフォーマンス レベルに達し、トレーニング中に最大 50%、推論中に最大 87% のメモリを節約します。
さらに、LOCOST は推論時に 600,000 トークンを超える入力テキストを効果的に処理し、書籍全体の要約に関する新しい最先端の結果を設定し、長い入力処理に新しい視点を開きます。

要約(オリジナル)

State-space models are a low-complexity alternative to transformers for encoding long sequences and capturing long-term dependencies. We propose LOCOST: an encoder-decoder architecture based on state-space models for conditional text generation with long context inputs. With a computational complexity of $O(L \log L)$, this architecture can handle significantly longer sequences than state-of-the-art models that are based on sparse attention patterns. We evaluate our model on a series of long document abstractive summarization tasks. The model reaches a performance level that is 93-96% comparable to the top-performing sparse transformers of the same size while saving up to 50% memory during training and up to 87% during inference. Additionally, LOCOST effectively handles input texts exceeding 600K tokens at inference time, setting new state-of-the-art results on full-book summarization and opening new perspectives for long input processing.

arxiv情報

著者 Florian Le Bronnec,Song Duong,Mathieu Ravaut,Alexandre Allauzen,Nancy F. Chen,Vincent Guigue,Alberto Lumbreras,Laure Soulier,Patrick Gallinari
発行日 2024-03-25 12:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク