要約
深さの剪定は、いくつかの重要でない変圧器ブロックを削除するだけで、ハードウェア固有の合併症なしで大きな言語モデルの推論コストを削減することを目的としています。
ただし、実証的な調査結果は、変圧器ブロックの重要性が非常にタスクに依存する可能性があることを示唆しています。タスクにとって重要なブロックは、別のタスクの精度を分解することなく削除できます。
この観察結果に基づいて、入力プロンプトに基づいてモデルから省略するブロックを決定する動的深度プルーニングアルゴリズム(プロンプトルーティングダイナミック深度剪定)を開発します。
プリンは、軽量のルーターをトレーニングして、一連のオプションの中で最適な省略セットを予測することで運営されています。このオプションセットは、データ駆動型の方法でも構築されています。
常識的な推論ベンチマークに関する経験的結果は、プリンが推論言語モデルを効果的に加速し、静的深度剪定ベースラインよりも優れたタスクのパフォーマンスを達成することを示しています。
要約(オリジナル)
Depth pruning aims to reduce the inference cost of a large language model without any hardware-specific complications, by simply removing several less important transformer blocks. However, our empirical findings suggest that the importance of a transformer block may be highly task-dependent — a block that is crucial for a task can be removed without degrading the accuracy on another task. Based on this observation, we develop a dynamic depth pruning algorithm, coined PuDDing (Prompt-routed Dynamic Depth Pruning), which determines which blocks to omit from the model based on the input prompt. PuDDing operates by training a lightweight router to predict the best omission set among a set of options, where this option set has also been constructed in a data-driven manner. Empirical results on commonsense reasoning benchmarks demonstrate that PuDDing effectively accelerates the inference language models, and achieves better on-task performance than static depth pruning baselines.
arxiv情報
著者 | Juyun Wee,Minjae Park,Jaeho Lee |
発行日 | 2025-02-14 11:46:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google