要約
畳み込みモデルは、複数のドメインで広く使用されています。
ただし、ほとんどの既存のモデルはローカル畳み込みのみを使用するため、モデルは長距離の依存関係を効率的に処理できません。
Attention は、グローバルな情報を集約することでこの問題を克服しますが、計算の複雑さをシーケンスの長さの 2 次にすることもできます。
最近、区ら。
[2021] は、状態空間モデルに触発された S4 と呼ばれるモデルを提案しました。
S4 は、カーネル サイズが入力シーケンス長に等しいグローバル畳み込みモデルとして効率的に実装できます。
S4 は Transformers よりもはるかに長いシーケンスをモデル化でき、いくつかの長距離タスクで SoTA よりも大幅な利益を達成できます。
実験的な成功にもかかわらず、S4 が関与しています。
高度なパラメーター化と初期化スキームが必要です。
その結果、S4 は直感的ではなくなり、使いにくくなります。
ここでは、S4 をわかりやすく説明し、グローバルな畳み込みモデルとしての S4 の成功に貢献する基本原則を抽出することを目指しています。
畳み込みカーネルの構造に焦点を当て、効果的なグローバル畳み込みモデルを構成するのに十分な、S4 が享受する 2 つの重要だが直感的な原則を特定します。1) 畳み込みカーネルのパラメータ化は、
パラメータは、シーケンスの長さに応じてサブリニアにスケーリングする必要があります。
2) カーネルは、より近い近傍との畳み込みの重みがより遠いものよりも大きいという減衰構造を満たす必要があります。
2 つの原則に基づいて、Structured Global Convolution (SGConv) と呼ばれるシンプルで効果的な畳み込みモデルを提案します。
SGConv は、いくつかのタスクで経験的に強力なパフォーマンスを発揮します。
2) SGConv を標準言語およびビジョン モデルにプラグインすると、効率とパフォーマンスの両方が向上する可能性が示されます。
要約(オリジナル)
Convolutional models have been widely used in multiple domains. However, most existing models only use local convolution, making the model unable to handle long-range dependency efficiently. Attention overcomes this problem by aggregating global information but also makes the computational complexity quadratic to the sequence length. Recently, Gu et al. [2021] proposed a model called S4 inspired by the state space model. S4 can be efficiently implemented as a global convolutional model whose kernel size equals the input sequence length. S4 can model much longer sequences than Transformers and achieve significant gains over SoTA on several long-range tasks. Despite its empirical success, S4 is involved. It requires sophisticated parameterization and initialization schemes. As a result, S4 is less intuitive and hard to use. Here we aim to demystify S4 and extract basic principles that contribute to the success of S4 as a global convolutional model. We focus on the structure of the convolution kernel and identify two critical but intuitive principles enjoyed by S4 that are sufficient to make up an effective global convolutional model: 1) The parameterization of the convolutional kernel needs to be efficient in the sense that the number of parameters should scale sub-linearly with sequence length. 2) The kernel needs to satisfy a decaying structure that the weights for convolving with closer neighbors are larger than the more distant ones. Based on the two principles, we propose a simple yet effective convolutional model called Structured Global Convolution (SGConv). SGConv exhibits strong empirical performance over several tasks: 1) With faster speed, SGConv surpasses S4 on Long Range Arena and Speech Command datasets. 2) When plugging SGConv into standard language and vision models, it shows the potential to improve both efficiency and performance.
arxiv情報
著者 | Yuhong Li,Tianle Cai,Yi Zhang,Deming Chen,Debadeepta Dey |
発行日 | 2022-10-17 17:53:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google