Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective

要約

線形複雑性シーケンス モデル (LCSM) は、線形アテンション、状態空間モデル、ロング コンボリューション、線形 RNN などのさまざまなシーケンス モデリング技術と線形複雑性を単一のフレームワーク内で統合する包括的なソリューションです。
目標は、各コンポーネントの影響を総合的かつ合理化された観点から分析することで、これらのモデルの理解を高めることです。
具体的には、これらのモデルのモデリング プロセスを拡張、振動、縮小 (EOS) の 3 つの異なる段階に分割し、各モデルには独自の特定の設定があります。
拡張ステージでは、入力信号を高次元のメモリ状態に投影します。
これに続いて、発振ステージでメモリ状態に対して再帰操作が実行されます。
最後に、記憶状態はシュリンク段階で低次元空間に射影されます。
私たちは包括的な実験を実行して、言語モデリングと検索タスクに対するさまざまな段階設定の影響を分析します。
私たちの結果は、データ駆動型の手法が言語モデリングの 3 つの段階の有効性にとって極めて重要であるのに対し、手動で作成した手法の方が検索タスクでは優れたパフォーマンスをもたらすことを示しています。

要約(オリジナル)

We present the Linear Complexity Sequence Model (LCSM), a comprehensive solution that unites various sequence modeling techniques with linear complexity, including linear attention, state space model, long convolution, and linear RNN, within a single framework. The goal is to enhance comprehension of these models by analyzing the impact of each component from a cohesive and streamlined viewpoint. Specifically, we segment the modeling processes of these models into three distinct stages: Expand, Oscillation, and Shrink (EOS), with each model having its own specific settings. The Expand stage involves projecting the input signal onto a high-dimensional memory state. This is followed by recursive operations performed on the memory state in the Oscillation stage. Finally, the memory state is projected back to a low-dimensional space in the Shrink stage. We perform comprehensive experiments to analyze the impact of different stage settings on language modeling and retrieval tasks. Our results show that data-driven methods are crucial for the effectiveness of the three stages in language modeling, whereas hand-crafted methods yield better performance in retrieval tasks.

arxiv情報

著者 Zhen Qin,Xuyang Shen,Weigao Sun,Dong Li,Stan Birchfield,Richard Hartley,Yiran Zhong
発行日 2024-05-27 17:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク