Mixture of Hidden-Dimensions Transformer

要約

Transformer モデルは、隠しディメンションを一律に増やすと計算コストとメモリ コストが増大し、各トークンに最も関連する機能を強調できなくなるため、効率的にスケーリングする際に課題に直面します。
さらに理解するために、隠れ次元のスパース性を研究し、訓練されたトランスフォーマーがトークン次元のごく一部のみを利用していることを観察し、「活性化フロー」パターンを明らかにします。
特に、複数の連続するトークンにわたって持続的にアクティベーションが行われる共有サブディメンションと、トークンごとに一意にアクティベートされる特殊なサブディメンションが存在します。
トークン関連のサブディメンションをより適切にモデル化するために、スパースな条件付きアクティベーション アーキテクチャである MoHD (Mixture of Hidden Dimensions) を提案します。
特に、MoHD は、共通のトークン機能に共有サブディメンションを採用し、特殊なサブディメンションを動的にアクティブ化するルーティング メカニズムを採用しています。
スパース性による潜在的な情報損失を軽減するために、アクティベーション フローを維持するアクティベーション スケーリングとグループ融合メカニズムを設計します。
このようにして、MoHD は、パフォーマンスを維持しながら、計算やパラメータの増加を無視して隠れた次元を拡張し、効率的なトレーニングと推論を実現します。
10 個の NLP タスクにわたる評価では、MoHD がパラメーター効率とタスクのパフォーマンスにおいて Vanilla Transformers を上回っていることが示されています。
50% 少ないアクティベーション パラメータで 1.7% 高いパフォーマンスを実現し、一定のアクティベーション コストで 3 倍のパラメータ拡張で 3.7% 高いパフォーマンスを実現します。
MOHD はモデルのスケーリングに新しい視点を提供し、隠れ次元のスパース性が効率を高める可能性を示しています。

要約(オリジナル)

Transformer models encounter challenges in scaling hidden dimensions efficiently, as uniformly increasing them inflates computational and memory costs while failing to emphasize the most relevant features for each token. For further understanding, we study hidden dimension sparsity and observe that trained Transformers utilize only a small fraction of token dimensions, revealing an ‘activation flow’ pattern. Notably, there are shared sub-dimensions with sustained activation across multiple consecutive tokens and specialized sub-dimensions uniquely activated for each token. To better model token-relevant sub-dimensions, we propose MoHD (Mixture of Hidden Dimensions), a sparse conditional activation architecture. Particularly, MoHD employs shared sub-dimensions for common token features and a routing mechanism to dynamically activate specialized sub-dimensions. To mitigate potential information loss from sparsity, we design activation scaling and group fusion mechanisms to preserve activation flow. In this way, MoHD expands hidden dimensions with negligible increases in computation or parameters, efficient training and inference while maintaining performance. Evaluations across 10 NLP tasks show that MoHD surpasses Vanilla Transformers in parameter efficiency and task performance. It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3x parameter expansion at constant activation cost. MOHD offers a new perspective for scaling the model, showcasing the potential of hidden dimension sparsity to boost efficiency

arxiv情報

著者 Yilong Chen,Junyuan Shang,Zhengyu Zhang,Jiawei Sheng,Tingwen Liu,Shuohuan Wang,Yu Sun,Hua Wu,Haifeng Wang
発行日 2024-12-10 10:13:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク