Unified Normalization for Accelerating and Stabilizing Transformers

要約

Transformers の堅実な成果により、Transformer はさまざまな自然言語および視覚タスクにおける一般的なアーキテクチャになりました。
Transformers のデフォルト コンポーネントとして、レイヤー正規化 (LN) は各トークン内のアクティベーションを正規化し、堅牢性を高めます。
ただし、LN では、推論でオンザフライの統計計算、除算および平方根演算が必要なため、ハードウェアの効率が低下します。
さらに、LN を他のハードウェア効率の高い正規化スキーム (バッチ正規化など) に置き換えると、パフォーマンスが低下し、トレーニングで崩壊することさえあります。
このジレンマは、活性化統計の異常な動作によって引き起こされることがわかりました。これには、反復にわたる大きな変動やレイヤー全体の極端な外れ値が含まれます。
これらの問題に取り組むために、他の線形操作と融合することで推論を高速化し、LN と同等のパフォーマンスを達成できる Unified Normalization (UN) を提案します。
UN は、調整された変動平滑化戦略を使用して活性化統計と勾配統計を調整することにより、パフォーマンスの向上に努めています。
一方、適応外れ値フィルタリング戦略を適用して、トレーニングの崩壊を回避します。その有効性は、この論文で理論的に証明され、実験的に検証されています。
言語と視覚のタスクに関する広範な実験を行うことにより、UN が LN に代わる効率的なドロップインの代替手段になり得ることを示します。
さらに、GPU での手法の効率を評価します。
UN を搭載したトランスフォーマーは、約 31% の推論スピードアップと約 18% のメモリ削減を享受します。
コードは https://github.com/hikvision-research/Unified-Normalization でリリースされます。

要約(オリジナル)

Solid results from Transformers have made them prevailing architectures in various natural language and vision tasks. As a default component in Transformers, Layer Normalization (LN) normalizes activations within each token to boost the robustness. However, LN requires on-the-fly statistics calculation in inference as well as division and square root operations, leading to inefficiency on hardware. What is more, replacing LN with other hardware-efficient normalization schemes (e.g., Batch Normalization) results in inferior performance, even collapse in training. We find that this dilemma is caused by abnormal behaviors of activation statistics, including large fluctuations over iterations and extreme outliers across layers. To tackle these issues, we propose Unified Normalization (UN), which can speed up the inference by being fused with other linear operations and achieve comparable performance on par with LN. UN strives to boost performance by calibrating the activation and gradient statistics with a tailored fluctuation smoothing strategy. Meanwhile, an adaptive outlier filtration strategy is applied to avoid collapse in training whose effectiveness is theoretically proved and experimentally verified in this paper. We demonstrate that UN can be an efficient drop-in alternative to LN by conducting extensive experiments on language and vision tasks. Besides, we evaluate the efficiency of our method on GPU. Transformers equipped with UN enjoy about 31% inference speedup and nearly 18% memory reduction. Code will be released at https://github.com/hikvision-research/Unified-Normalization.

arxiv情報

著者 Qiming Yang,Kai Zhang,Chaoxiang Lan,Zhi Yang,Zheyang Li,Wenming Tan,Jun Xiao,Shiliang Pu
発行日 2022-08-02 08:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク