S$^3$Attention: Improving Long Sequence Attention with Smoothed Skeleton Sketching

要約

アテンションベースのモデルは、数多くのアプリケーションで多くの目覚ましい進歩を遂げてきました。
ただし、アテンションの 2 次複雑さにより、バニラのアテンション ベースのモデルを長いシーケンスのタスクに適用するのは困難になります。
ランクネスを低くし、シーケンス全体をサブシーケンスで近似することにより、計算コストを削減するために、さまざまな改良されたアテンション構造が提案されています。
これらのアプローチの最も難しい部分は、情報の保存と計算量の削減の間の適切なバランスを維持することです。使用されるサブシーケンスが長いほど、より良い情報が保存されますが、その代償として、より多くのノイズと計算コストが発生します。
この論文では、このトレードオフをネゴシエートする以前の試みを大幅に改善する、S$^3$Attend と呼ばれる、平滑化されたスケルトン スケッチ ベースのアテンション構造を提案します。
S$^3$Attendance には、シーケンス長に対する線形複雑さを維持しながらノイズの影響を効果的に最小限に抑える 2 つのメカニズムがあります。それは、長いシーケンスにわたる情報を混合するスムージング ブロックと、入力行列から列と行を同時に選択する行列スケッチ法です。

S$^3$Attendance の有効性を理論的にも経験的にも検証します。
ロング レンジ アリーナ (LRA) データセットと 6 つの時系列予測に関する広範な研究により、S$^3$Attend が、標準的な Attend やその他の最先端の Attendance 構造の両方よりも大幅に優れていることが示されています。

要約(オリジナル)

Attention based models have achieved many remarkable breakthroughs in numerous applications. However, the quadratic complexity of Attention makes the vanilla Attention based models hard to apply to long sequence tasks. Various improved Attention structures are proposed to reduce the computation cost by inducing low rankness and approximating the whole sequence by sub-sequences. The most challenging part of those approaches is maintaining the proper balance between information preservation and computation reduction: the longer sub-sequences used, the better information is preserved, but at the price of introducing more noise and computational costs. In this paper, we propose a smoothed skeleton sketching based Attention structure, coined S$^3$Attention, which significantly improves upon the previous attempts to negotiate this trade-off. S$^3$Attention has two mechanisms to effectively minimize the impact of noise while keeping the linear complexity to the sequence length: a smoothing block to mix information over long sequences and a matrix sketching method that simultaneously selects columns and rows from the input matrix. We verify the effectiveness of S$^3$Attention both theoretically and empirically. Extensive studies over Long Range Arena (LRA) datasets and six time-series forecasting show that S$^3$Attention significantly outperforms both vanilla Attention and other state-of-the-art variants of Attention structures.

arxiv情報

著者 Xue Wang,Tian Zhou,Jianqing Zhu,Jialin Liu,Kun Yuan,Tao Yao,Wotao Yin,Rong Jin,HanQin Cai
発行日 2024-09-17 17:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, stat.ML パーマリンク