CoCA: Fusing position embedding with Collinear Constrained Attention for fine-tuning free context window extending

要約

セルフ アテンションと位置の埋め込みは、Transformer ベースの LLM の 2 つの重要なモジュールです。
それらの間の潜在的な関係は、特にコンテキスト ウィンドウの拡張については十分に研究されていません。
本稿では、RoPE と自己注意を融合する共線制約関係を導入し、これを共線制約注意 (CoCA) と名付けます。
CoCA の計算および空間の複雑さを分析した結果、元の Transformer ベースのモデルと比較して追加のオーバーヘッドは最小限にとどまることがわかりました。
CoCA の効率的な実装を提供し、Transformer ベースのモデルの既存の位置埋め込みおよびアテンション モジュールをドロップインで置き換えます。
実験によれば、CoCA はコンテキスト ウィンドウの拡張において非常に優れたパフォーマンスを発揮します。
たとえば、512 コンテキスト長でトレーニングされた CoCA ベースの GPT モデルは、混乱を発散させることなくコンテキスト ウィンドウを最大 8K まで拡張できます。
これは、微調整を行わずにコンテキスト ウィンドウが 16 倍以上拡張されていることを示しています。
私たちのコードはここでリリースされています: https://github.com/codefuse-ai/Collinear-Constrained-tention

要約(オリジナル)

Self-attention and position embedding are two key modules in Transformer based LLMs. The potential relationship among them are far from well studied, especially for context window extending. In this paper, we introduce collinear constrained relationship to fuse RoPE and self-attention, and name it as Collinear Constrained Attention (CoCA). We’ve analyzed the computational and spatial complexity of CoCA and have determined that it adds only minimal additional overhead compared to the original Transformer-based models. We provide an efficient implementation of CoCA, and make it drop-in replacement for any existing position embedding and attention modules in Transformer based models. Experiments show that CoCA performs extraordinary well on context window extending. For instance, a CoCA based GPT model trained with 512 context length can extend the context window up to 8K without perplexity diverging. This indicates more than 16x context window extending without any fine-tuning. Our code is released here: https://github.com/codefuse-ai/Collinear-Constrained-Attention

arxiv情報

著者 Shiyi Zhu,Jing Ye,Wei Jiang,Qi Zhang,Yifan Wu,Jianguo Li
発行日 2023-11-08 08:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク