TRAMS: Training-free Memory Selection for Long-range Language Modeling

要約

Transformer アーキテクチャは多くの AI モデルにとって重要ですが、長距離言語モデリングでは依然として課題に直面しています。
長距離の依存関係の問題に取り組むために、いくつかの特定のトランスフォーマー アーキテクチャが設計されていますが、Transformer-XL のような既存の方法は、高い割合で非効率なメモリに悩まされています。
この研究では、1 つの単純なメトリクスに基づいてアテンション計算に参加するトークンを選択する、TRAining-free Memory Selection (TRAMS) として知られるプラグ アンド プレイ戦略を紹介します。
この戦略により、現在のクエリで高い注目スコアを持つ可能性が高いトークンを保持し、他のトークンを無視することができます。
私たちは単語レベルのベンチマーク (WikiText-103) と文字レベルのベンチマーク (enwik8) でアプローチをテストしました。結果は、追加のトレーニングやパラメータの追加を行わなくても改善が見られたことを示しています。

要約(オリジナル)

The Transformer architecture is crucial for numerous AI models, but it still faces challenges in long-range language modeling. Though several specific transformer architectures have been designed to tackle issues of long-range dependencies, existing methods like Transformer-XL are plagued by a high percentage of ineffective memories. In this study, we present a plug-and-play strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens participating in attention calculation based on one simple metric. This strategy allows us to keep tokens that are likely to have a high attention score with the current queries and ignore the other ones. We have tested our approach on the word-level benchmark (WikiText-103) and the character-level benchmark (enwik8), and the results indicate an improvement without having additional training or adding additional parameters.

arxiv情報

著者 Haofei Yu,Cunxiang Wang,Yue Zhang,Wei Bi
発行日 2023-12-20 08:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク