Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference

要約

変圧器モデルは大きな成功を収めていますが、計算効率が低くなります。
各レイヤーについて、レイヤーの全幅はバッチ内のトークンの小さなサブセットにのみ必要である可能性があり、トークンの処理に必要な「有効な」幅はレイヤーごとに異なる可能性があることが観察されています。
この観察を動機として、トークンごとに推定される入力の難易度に合わせて計算負荷を動的に適応させる汎用モジュールである適応計算モジュール (ACM) を導入します。
ACM は、先行する対応する学習者の出力を段階的に改良する一連の学習者で構成されます。
追加のゲート メカニズムにより、各トークンに対して実行する最適な学習器の数が決定されます。
また、事前トレーニングされたモデルを「ACMized」バリアントに置き換える蒸留手法も提案します。
コンピューター ビジョンと音声認識におけるトランスフォーマー モデルの評価では、レイヤーを ACM に置き換えることで、ユーザー定義の予算の広い範囲にわたって下流の精度を低下させることなく、推論コストが大幅に削減されることが実証されました。

要約(オリジナル)

While transformer models have been highly successful, they are computationally inefficient. We observe that for each layer, the full width of the layer may be needed only for a small subset of tokens inside a batch and that the ‘effective’ width needed to process a token can vary from layer to layer. Motivated by this observation, we introduce the Adaptive Computation Module (ACM), a generic module that dynamically adapts its computational load to match the estimated difficulty of the input on a per-token basis. An ACM consists of a sequence of learners that progressively refine the output of their preceding counterparts. An additional gating mechanism determines the optimal number of learners to execute for each token. We also propose a distillation technique to replace any pre-trained model with an ‘ACMized’ variant. Our evaluation of transformer models in computer vision and speech recognition demonstrates that substituting layers with ACMs significantly reduces inference costs without degrading the downstream accuracy for a wide interval of user-defined budgets.

arxiv情報

著者 Bartosz Wójcik,Alessio Devoto,Karol Pustelnik,Pasquale Minervini,Simone Scardapane
発行日 2024-12-18 17:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク