要約
創発特性は、小規模なモデルには存在しないが、より大きなモデルでは観察される動作を説明する用語として広く採用されています。
最近の研究では、量子化によって生じるトレードオフも新たな特性であり、6B パラメーターを超えるモデルではパフォーマンスが急激に低下することが示唆されています。
この研究では、「パフォーマンスにおける量子化の崖は単に規模の要素なのか?」と問いかけます。
特定の新たな特性がなぜ大規模に表面化するのかという研究の焦点が高まっていることを背景に、この研究は有用な反例を提供する。
大きな活性化規模の外れ値を抑制する、量子化に適したトレーニング レシピを最適化することが可能であると仮定します。
ここで、外れ値の次元はスケールに固有の産物ではなく、むしろ事前トレーニング中に存在する最適化条件の影響を受けやすいことがわかります。
これは、より効率的な量子化への方向性を開くと同時に、他の創発的な特性が固有のものなのか、それとも最適化やアーキテクチャ設計の選択によって変更および条件付けできるのかという問題を提起します。
パフォーマンスの低下を最小限に抑えながら、410M から 52B までのサイズのモデルを量子化することに成功しました。
要約(オリジナル)
Emergent properties have been widely adopted as a term to describe behavior not present in smaller models but observed in larger models. Recent work suggests that the trade-off incurred by quantization is also an emergent property, with sharp drops in performance in models over 6B parameters. In this work, we ask ‘are quantization cliffs in performance solely a factor of scale?’ Against a backdrop of increased research focus on why certain emergent properties surface at scale, this work provides a useful counter-example. We posit that it is possible to optimize for a quantization friendly training recipe that suppresses large activation magnitude outliers. Here, we find that outlier dimensions are not an inherent product of scale, but rather sensitive to the optimization conditions present during pre-training. This both opens up directions for more efficient quantization, and poses the question of whether other emergent properties are inherent or can be altered and conditioned by optimization and architecture design choices. We successfully quantize models ranging in size from 410M to 52B with minimal degradation in performance.
arxiv情報
著者 | Arash Ahmadian,Saurabh Dash,Hongyu Chen,Bharat Venkitesh,Stephen Gou,Phil Blunsom,Ahmet Üstün,Sara Hooker |
発行日 | 2023-05-30 17:58:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google