You Do Not Fully Utilize Transformer’s Representation Capacity

要約

前のトークンを単一の隠された状態に圧縮するRNNとは対照的に、トランスは前のすべてのトークンに直接注意を払うことができます。
ただし、標準変圧器は、直前のレイヤーからの表現のみを使用します。
この論文では、この設計の選択が表現崩壊を引き起こし、最適ではないパフォーマンスにつながることを示します。
この問題に対処するために、レイヤー統合メモリ(LIME)を導入します。これは、以前のレイヤーから隠された状態へのアクセスを可能にすることで、モデル全体のメモリフットプリントを保存しながら表現能力を拡大するシンプルでありながら強力なアプローチです。
さまざまなアーキテクチャとさまざまなルックアップメカニズムにわたる広範な実験を通じて、幅広いタスクに関する一貫したパフォーマンスの改善を示します。
さらに、学習した表現のダイナミクスの分析と深さ回路の探求は、LIMEがレイヤー間で情報を統合する方法を明らかにし、将来の研究のための有望な方向を指し示しています。

要約(オリジナル)

In contrast to RNNs, which compress previous tokens into a single hidden state, Transformers can attend to all previous tokens directly. However, standard Transformers only use representations from the immediately preceding layer. In this paper, we show that this design choice causes representation collapse and leads to suboptimal performance. To address this issue, we introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that preserves the model’s overall memory footprint while expanding its representational capacity by allowing access to hidden states from earlier layers. Through extensive experiments across various architectures and different lookup mechanisms, we demonstrate consistent performance improvements on a wide range of tasks. Moreover, our analysis of the learned representation dynamics and our exploration of depthwise circuits reveal how LIMe integrates information across layers, pointing to promising directions for future research.

arxiv情報

著者 Gleb Gerasimov,Yaroslav Aksenov,Nikita Balagansky,Viacheslav Sinii,Daniil Gavrilov
発行日 2025-02-13 12:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク