DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging


Vaswani らによる変圧器アーキテクチャ。
(2017) は現在、自然言語処理から音声処理、画像理解に至るまで、アプリケーション ドメイン全体で普及しています。
私たちは、モデルのサイズを増やさずにモデルの複雑さを改善する標準アーキテクチャへの簡単な変更である DenseFormer を提案します。100B パラメータ範囲の大規模モデルに数千のパラメータを追加します。
私たちのアプローチは、各変換ブロックの後の追加の平均化ステップに依存しており、現在と過去の表現の加重平均を計算します。この演算を深度加重平均 (DWA) と呼びます。
学習された DWA 重みは、情報フローの一貫したパターンを示し、遠く離れたレイヤーからのアクティベーションが強力かつ構造的に再利用されていることを明らかにします。
実験では、DenseFormer がよりデータ効率が高く、より深いトランスフォーマー モデルと同じ複雑度に達すること、および同じ複雑さの場合、これらの新しいモデルがメモリ効率と推論時間の点でトランスフォーマーのベースラインを上回るパフォーマンスを示していることが実証されています。


著者 Matteo Pagliardini,Amirkeivan Mohtashami,Francois Fleuret,Martin Jaggi
発行日 2024-03-21 10:57:40+00:00
