Pretraining Without Attention

要約

【タイトル】アテンションを使わない事前学習

【要約】
– NLPにおける事前学習で成功してきたTransfomersは、他のアーキテクチャでは下流の精度が著しく低下し、GLUEなどの標準ベンチマークに合わせるためにアテンション層が必要とされている。
– 本研究は、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、アテンションを使用しない事前学習を探究した。
– 提案されたモデル、Bidirectional Gated SSM(BiGS)は、SSMレイヤーを多重ゲートアーキテクチャと組み合わせたものであり、単純なシーケンスモデリングアーキテクチャで効果的であった乗算ゲートアーキテクチャを採用している。
– このモデルは、ペア間の相互作用を考慮しない静的レイヤーを学習する。それでも、BiGSはBERT事前学習のGLUE上の精度に匹敵し、近似なしで4096トークンの長いフォーム事前学習に拡張できる。
– 解析によると、モデルの平均精度は似ているが、相互作用と構文的表現に関してBERTとは異なる帰納バイアスを持つ手法であることがわかる。
– この研究のモデルは、すべてhttps://github.com/jxiw/BiGSで利用可能である。

要約(オリジナル)

Transformers have been essential to pretraining success in NLP. While other architectures have been used, downstream accuracy is either significantly worse, or requires attention layers to match standard benchmarks such as GLUE. This work explores pretraining without attention by using recent advances in sequence routing based on state-space models (SSMs). Our proposed model, Bidirectional Gated SSM (BiGS), combines SSM layers with a multiplicative gating architecture that has been effective in simplified sequence modeling architectures. The model learns static layers that do not consider pair-wise interactions. Even so, BiGS is able to match BERT pretraining accuracy on GLUE and can be extended to long-form pretraining of 4096 tokens without approximation. Analysis shows that while the models have similar average accuracy, the approach has different inductive biases than BERT in terms of interactions and syntactic representations. All models from this work are available at https://github.com/jxiw/BiGS.

arxiv情報

著者 Junxiong Wang,Jing Nathan Yan,Albert Gu,Alexander M. Rush
発行日 2023-05-09 01:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク