要約
高機能大規模言語モデル (LLM) の圧縮は、リソース効率の高い推論のための好まれる戦略として浮上しています。
最先端 (SoTA) 圧縮方法は、問題のないタスクのパフォーマンスを維持する点で目覚ましい進歩を遂げていますが、安全性と信頼性の点での圧縮の潜在的なリスクはほとんど無視されてきました。
この調査では、8 つの信頼性の次元にわたって 5 つの SoTA 圧縮技術を使用して、3 つの主要な LLM の最初の徹底的な評価を実施します。
私たちの実験では、圧縮と信頼性の間の複雑な相互作用が強調され、いくつかの興味深いパターンが明らかになりました。
現在のところ、効率性と信頼性を同時に達成するには、量子化が枝刈りよりも効果的なアプローチであることがわかりました。
たとえば、4 ビットの量子化モデルは、元のモデルの信頼性を保持しますが、モデルの枝刈りにより、スパース性が 50% であっても信頼性が大幅に低下します。
さらに、適度なビット範囲内で量子化を採用すると、倫理や公平性などの特定の信頼性の側面が予想外に改善される可能性があります。
逆に、非常に低いビット レベル (3 ビット) への極端な量子化は、信頼性を大幅に低下させる傾向があります。
このリスクの増加は、良性のパフォーマンスだけを見ていては明らかにできないため、実際には包括的な信頼性の評価が義務付けられています。
これらの発見は、LLM の高い実用性、効率性、信頼性を同時に達成するための実践的な推奨事項として結実します。
コードとモデルは https://decoding-comp-trust.github.io で入手できます。
要約(オリジナル)
Compressing high-capability Large Language Models (LLMs) has emerged as a favored strategy for resource-efficient inferences. While state-of-the-art (SoTA) compression methods boast impressive advancements in preserving benign task performance, the potential risks of compression in terms of safety and trustworthiness have been largely neglected. This study conducts the first, thorough evaluation of three (3) leading LLMs using five (5) SoTA compression techniques across eight (8) trustworthiness dimensions. Our experiments highlight the intricate interplay between compression and trustworthiness, revealing some interesting patterns. We find that quantization is currently a more effective approach than pruning in achieving efficiency and trustworthiness simultaneously. For instance, a 4-bit quantized model retains the trustworthiness of its original counterpart, but model pruning significantly degrades trustworthiness, even at 50% sparsity. Moreover, employing quantization within a moderate bit range could unexpectedly improve certain trustworthiness dimensions such as ethics and fairness. Conversely, extreme quantization to very low bit levels (3 bits) tends to reduce trustworthiness significantly. This increased risk cannot be uncovered by looking at benign performance alone, in turn, mandating comprehensive trustworthiness evaluation in practice. These findings culminate in practical recommendations for simultaneously achieving high utility, efficiency, and trustworthiness in LLMs. Code and models are available at https://decoding-comp-trust.github.io.
arxiv情報
著者 | Junyuan Hong,Jinhao Duan,Chenhui Zhang,Zhangheng Li,Chulin Xie,Kelsey Lieberman,James Diffenderfer,Brian Bartoldson,Ajay Jaiswal,Kaidi Xu,Bhavya Kailkhura,Dan Hendrycks,Dawn Song,Zhangyang Wang,Bo Li |
発行日 | 2024-06-04 05:40:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google