Elementwise Layer Normalization

要約

最近の論文では、層の正規化のドロップイン置換として動的タン(DYT)を提案しました。
この方法は、実用的な観点から経験的に十分に動機付けられ、魅力的ですが、理論的基盤がありません。
この作業では、数学的にDYTを導き出し、そうするために明確に定義された近似が必要であることを示します。
上記の近似をドロップすることにより、代替の要素ごとの変換が取得され、これを要素ごとのレイヤー正規化(ELN)と呼びます。
ELNは、DYTよりも層の正規化に似ていることを実証します。

要約(オリジナル)

A recent paper proposed Dynamic Tanh (DyT) as a drop-in replacement for Layer Normalization. Although the method is empirically well-motivated and appealing from a practical point of view, it lacks a theoretical foundation. In this work, we derive DyT mathematically and show that a well-defined approximation is needed to do so. By dropping said approximation, an alternative element-wise transformation is obtained, which we call Elementwise Layer Normalization (ELN). We demonstrate that ELN resembles Layer Normalization more accurately than DyT does.

arxiv情報

著者 Felix Stollenwerk
発行日 2025-03-27 17:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク