SCCA: Shifted Cross Chunk Attention for long contextual semantic expansion

要約

効率的な方法としてのまばらな注意は、計算コストを大幅に削減できますが、現在のまばらな注意は、グローバルな情報の流れをブロックするウィンドウの自己注意に依存する傾向があります。
この問題に対して、異なる KV シフト戦略を使用して各アテンション層のそれぞれのフィールドを拡張するシフト クロス チャンク アテンション (SCCA) を提案します。
ただし、拡張注意(DA)と拡張近隣注意(DNA)を組み合わせて、シフト拡張注意(SDA)を提示します。
SCCA と SDA は両方とも、マルチヘッド注意における注意結果を蓄積して、完全な注意におけるおおよそのそれぞれのフィールドを取得できます。
この論文では、SCCA の異なるパターンおよび SCCA と SDA の組み合わせを使用して言語モデリング実験を実行します。
提案されているシフト クロス チャンク アテンション (SCCA) は、位置補間 (PI) と LoRA を組み合わせた大規模言語モデル (LLM) を、現在のスパース アテンションよりも長いコンテキストに効果的に拡張できます。
特に、SCCA は、単一の V100 で 4k コンテキストから 8k まで LLaMA2 7B を採用しています。
このアテンション パターンは、元のアーキテクチャを維持しながらモデル コンテキストを拡張するためのプラグ アンド プレイの微調整方法を提供でき、ほとんどの既存の手法と互換性があります。

要約(オリジナル)

Sparse attention as a efficient method can significantly decrease the computation cost, but current sparse attention tend to rely on window self attention which block the global information flow. For this problem, we present Shifted Cross Chunk Attention (SCCA), using different KV shifting strategy to extend respective field in each attention layer. Except, we combine Dilated Attention(DA) and Dilated Neighborhood Attention(DNA) to present Shifted Dilated Attention(SDA). Both SCCA and SDA can accumulate attention results in multi head attention to obtain approximate respective field in full attention. In this paper, we conduct language modeling experiments using different pattern of SCCA and combination of SCCA and SDA. The proposed shifted cross chunk attention (SCCA) can effectively extend large language models (LLMs) to longer context combined with Positional interpolation(PI) and LoRA than current sparse attention. Notably, SCCA adopts LLaMA2 7B from 4k context to 8k in single V100. This attention pattern can provide a Plug-and-play fine-tuning method to extend model context while retaining their original architectures, and is compatible with most existing techniques.

arxiv情報

著者 Yuxiang Guo
発行日 2023-12-12 14:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク