Unlimiformer: Long-Range Transformers with Unlimited Length Input

要約

タイトル:Unlimiformer:無制限の長さの入力を持つ長距離トランスフォーマー

要約:
– Transformerベースのモデルは、入力内のすべてのトークンに注意を払う必要があるため、通常、入力長に事前に定義された境界を持っています。
– この研究では、既存の事前学習済みエンコーダ・デコーダのトランスフォーマーにラッピングして、すべてのレイヤーでの注意計算を単一のk最近傍インデックスにオフロードすることができる一般的なアプローチ「Unlimiformer」を提案します。
– これにより、すべてのデコーダレイヤーの注意ヘッドがトップ-kのキーを取得し、キー全体に注意を払う代わりに、非常に長い入力シーケンスをインデックス化できます。また、このインデックスは、GPUまたはCPUメモリに保持でき、部分線形時間でクエリできます。
– この方法で、BookSumデータセットの350kトークン長の入力を切り捨てずに要約できることを示しました。Unlimiformerは、BARTやLongformerなどの事前学習済みモデルを、学習済みの重みを追加せず、コードを変更せずに無制限の入力に拡張します。
– コードとモデルは、https://github.com/abertsch72/unlimiformer で公開されています。

要約(オリジナル)

Transformer-based models typically have a predefined bound to their input length, because of their need to potentially attend to every token in the input. In this work, we propose Unlimiformer: a general approach that can wrap any existing pretrained encoder-decoder transformer, and offload the attention computation across all layers to a single $k$-nearest-neighbor index; this index can be kept on either the GPU or CPU memory and queried in sub-linear time. This way, we can index extremely long input sequences, while every attention head in every decoder layer retrieves its top-$k$ keys, instead of attending to every key. We demonstrate Unlimiformers’s efficacy on several long-document and multi-document summarization benchmarks, showing that it can summarize even 350k token-long inputs from the BookSum dataset, without any input truncation at test time. Unlimiformer improves pretrained models such as BART and Longformer by extending them to unlimited inputs without additional learned weights and without modifying their code. We make our code and models publicly available at https://github.com/abertsch72/unlimiformer .

arxiv情報

著者 Amanda Bertsch,Uri Alon,Graham Neubig,Matthew R. Gormley
発行日 2023-05-02 17:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク