要約
注意シンクと大規模な活性化を排除するトランスの注意メカニズムにおけるソフトマックスの整理整形ではなく、整理型のドロップイン置換であるSoftPickを紹介します。
340Mパラメーターモデルを使用した実験は、SoftPickが0%のシンクレートを達成しながら、標準ベンチマークでSoftMaxを持つパフォーマンスパリティを維持することを示しています。
ソフトピックトランスは、尖度が大幅に低い(340対33,510)、隠された状態を生成し、まばらな注意マップ(46.97%スパース性)を作成します。
SoftPickを使用するモデルは、量子化時にSoftMaxを一貫して上回ります。
分析と議論は、ソフトピックが量子化、低精度トレーニング、スパースの最適化、剪定、および解釈の新しい可能性をどのように開く可能性があるかを示しています。
私たちのコードは、https://github.com/zaydzuhri/softpick-attentionで入手できます。
要約(オリジナル)
We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M parameter models demonstrate that softpick maintains performance parity with softmax on standard benchmarks while achieving 0% sink rate. The softpick transformer produces hidden states with significantly lower kurtosis (340 vs 33,510) and creates sparse attention maps (46.97% sparsity). Models using softpick consistently outperform softmax when quantized, with particularly pronounced advantages at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Our code is available at https://github.com/zaydzuhri/softpick-attention.
arxiv情報
著者 | Zayd M. K. Zuhri,Erland Hilman Fuadi,Alham Fikri Aji |
発行日 | 2025-04-29 17:36:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google