Scaling Transformer to 1M tokens and beyond with RMT

要約

変換器によって解決できるより広い範囲の問題に対する主な制限は、入力サイズに応じた計算の複雑さの二次スケーリングです。
この研究では、計算を線形にスケーリングしながら入力コンテキストの長さを拡張するための、事前トレーニング済みトランスフォーマー モデルのリカレント メモリ拡張を調査します。
私たちのアプローチは、高い検索精度を維持しながら、前例のない最大 200 万トークンのシーケンスの情報をメモリに保存できることを実証します。
言語モデリング タスクの実験では、処理される入力セグメントの数が増加するにつれて、複雑さが改善されることが示されています。
これらの結果は、自然言語の理解と生成タスクにおける長期的な依存関係の処理を強化し、メモリを大量に使用するアプリケーションの大規模なコンテキスト処理を可能にする大きな可能性がある、私たちの方法の有効性を強調しています。

要約(オリジナル)

A major limitation for the broader scope of problems solvable by transformers is the quadratic scaling of computational complexity with input size. In this study, we investigate the recurrent memory augmentation of pre-trained transformer models to extend input context length while linearly scaling compute. Our approach demonstrates the capability to store information in memory for sequences of up to an unprecedented two million tokens while maintaining high retrieval accuracy. Experiments with language modeling tasks show perplexity improvement as the number of processed input segments increases. These results underscore the effectiveness of our method, which has significant potential to enhance long-term dependency handling in natural language understanding and generation tasks, as well as enable large-scale context processing for memory-intensive applications.

arxiv情報

著者 Aydar Bulatov,Yuri Kuratov,Yermek Kapushev,Mikhail S. Burtsev
発行日 2024-02-06 10:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク