要約
変圧器ベースのモデルは、コンピュータービジョンや自然言語処理など、多くの分野で\ textit {de facto}バックボーンになりました。
ただし、これらのモデルがサイズが拡張されるため、内部計算と比較してエネルギー消費量が大幅に高いため、外部メモリアクセス(EMA)と活性化は重要なボトルネックになります。
ほとんどの以前の作業は自己関節メカニズムの最適化に焦点を当てていますが、EMAコストも同様に重要な線形投影中にデータ転送を最適化することにはほとんど注意が払われていません。
このホワイトペーパーでは、入力シーケンスの長さに基づいて、タイルの粒度で固定的な入力または重量を選択するタイルベースの適応固定(TAS)スキームを提案します。
私たちの実験結果は、TASが従来の固定スキームと比較してEMAを97%以上減らすことができ、さまざまな注意最適化技術とハードウェアアクセラレータと互換性があることを示しています。
要約(オリジナル)
Transformer-based models have become the \textit{de facto} backbone across many fields, such as computer vision and natural language processing. However, as these models scale in size, external memory access (EMA) for weight and activations becomes a critical bottleneck due to its significantly higher energy consumption compared to internal computations. While most prior work has focused on optimizing the self-attention mechanism, little attention has been given to optimizing data transfer during linear projections, where EMA costs are equally important. In this paper, we propose the Tile-based Adaptive Stationary (TAS) scheme that selects the input or weight stationary in a tile granularity, based on the input sequence length. Our experimental results demonstrate that TAS can significantly reduce EMA by more than 97\% compared to traditional stationary schemes, while being compatible with various attention optimization techniques and hardware accelerators.
arxiv情報
著者 | Tseng-Jen Li,Tian-Sheuan Chang |
発行日 | 2025-03-25 13:29:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google