要約
最近の研究では、変換モデル、特に大規模言語モデル (LLM) の強化におけるゲート線形ユニット (GLU) の有効性が実証されています。
さらに、従来のシリアル化された方法ではなく、各 Transformer ブロック内で並列構成を利用することで、パフォーマンスに大きな影響を与えることなく LLM のトレーニングを高速化できることが明らかになりました。
ただし、画像分類タスクに対して MLP とアテンション ブロックを並行して実行すると、パフォーマンスの顕著な低下が観察されました。
この問題に取り組むために、アテンション ブロック内の非線形性を統合する新しい変圧器の変形を提案します。
私たちは GLU ベースのアクティベーション関数を Value テンソルに実装しました。この新しい技術は、少ないパラメーターを使用しながら、ImageNet-1K データセット上でビジョン トランスフォーマーの現在の最先端の S/16 バリアントを 0.6% 上回ります。
また、パラメータの半分のみを使用しながら、B/16 バリアントに置き換わります。
さらに、私たちの主張を確認するために、GELU 活性化関数バリアントを使用した結果を提供します。
最後に、MABViT バリアントが標準アーキテクチャと比較して、ディープ トランスで利用された場合に大きな可能性を発揮することを紹介します。
要約(オリジナル)
Recent studies have demonstrated the effectiveness of Gated Linear Units (GLU) in enhancing transformer models, particularly in Large Language Models (LLMs). Additionally, utilizing a parallel configuration within each Transformer block rather than the conventional serialized method has been revealed to accelerate the training of LLMs without significantly impacting performance. However, when the MLP and attention block were run in parallel for the image classification task, we observed a noticeable decline in performance. We propose a novel transformer variant that integrates non-linearity within the attention block to tackle this problem. We implemented the GLU-based activation function on the Value tensor, and this new technique surpasses the current state-of-the-art S/16 variant of Vision Transformers by 0.6% on the ImageNet-1K dataset while utilizing fewer parameters. It also supersedes the B/16 variant while using only half the parameters. Furthermore, we provide results with the GELU activation function variant to confirm our assertions. Lastly, we showcase that the MABViT variants exhibit greater potential when utilized in deep transformers compared to the standard architecture.
arxiv情報
著者 | Mahesh Ramesh,Aswinkumar Ramkumar |
発行日 | 2024-01-01 13:27:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google