Extended Mind Transformers

要約

事前トレーニングされた言語モデルは一般的な知能と常識を示しますが、長い入力は推論時に情報を記憶する際にすぐにボトルネックになります。
私たちは、モデルが事前に計算されたメモリのバンクにアクセスできるようにする、単純な手法である Memorizing Transformers (Wu et al., 2022) を再浮上させました。
取得したキーと値の位置エンコーディングをどのように更新するかを批判的に評価することで、微調整の必要性など、元の方法の欠点の多くを修正できることを示します。
この直感的な方法では、外部の埋め込みを使用するのではなく、モデル独自のキー/クエリ システムを使用して、各生成ステップで最も関連性の高いメモリを選択して処理します。
以前の研究とは異なり、大部分のデコーダ層で外部情報が取得されることの重要性を実証します。
私たちは、新しい反事実的な長距離検索ベンチマークをオープンソース化し、Extended Mind Transformers が今日の最先端技術を平均 6% 上回るパフォーマンスを示すことを示しました。

要約(オリジナル)

Pre-trained language models demonstrate general intelligence and common sense, but long inputs quickly become a bottleneck for memorizing information at inference time. We resurface a simple method, Memorizing Transformers (Wu et al., 2022), that gives the model access to a bank of pre-computed memories. We show that it is possible to fix many of the shortcomings of the original method, such as the need for fine-tuning, by critically assessing how positional encodings should be updated for the keys and values retrieved. This intuitive method uses the model’s own key/query system to select and attend to the most relevant memories at each generation step, rather than using external embeddings. We demonstrate the importance of external information being retrieved in a majority of decoder layers, contrary to previous work. We open source a new counterfactual long-range retrieval benchmark, and show that Extended Mind Transformers outperform today’s state of the art by 6% on average.

arxiv情報

著者 Phoebe Klett,Thomas Ahle
発行日 2024-06-04 14:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク