Tiny Models are the Computational Saver for Large Models

要約

このペーパーでは、小さなモデルを使用して大きなモデルを適応的に置き換える、早期終了のような動的モデル圧縮アプローチである TinySaver を紹介します。
従来の圧縮手法とは異なり、TinySaver のような動的手法は難易度の違いを利用して、特定の入力が推論プロセスを早期に完了できるようにすることで、計算リソースを節約できます。
既存の早期終了設計のほとんどは、追加のネットワーク ブランチをモデルのバックボーンに接続することによって実装されます。
しかし、私たちの調査では、完全に独立した小さなモデルが、パフォーマンスへの影響を最小限に抑えながら、大きなモデルのジョブのかなりの部分を置き換えることができることが明らかになりました。
これらを最初の出口として採用すると、計算効率が大幅に向上します。
与えられた大規模モデルの計算節約手段として最も適切な小さなモデルを検索して採用することにより、提案されたアプローチはモデル圧縮の新規かつ汎用的な方法として機能します。
この発見は、研究コミュニティが急速に進化する AI モデルによってもたらされる計算需要の増大に対処するための新しい圧縮方法を探索するのに役立ちます。
ImageNet-1k 分類におけるこのアプローチの評価では、さまざまな最新のビジョン モデルにわたって、パフォーマンスの損失はごくわずかで、コンピューティング操作の数を最大 90% 削減できる可能性があることが実証されました。
本作のコードが公開されます。

要約(オリジナル)

This paper introduces TinySaver, an early-exit-like dynamic model compression approach which employs tiny models to substitute large models adaptively. Distinct from traditional compression techniques, dynamic methods like TinySaver can leverage the difficulty differences to allow certain inputs to complete their inference processes early, thereby conserving computational resources. Most existing early exit designs are implemented by attaching additional network branches to the model’s backbone. Our study, however, reveals that completely independent tiny models can replace a substantial portion of the larger models’ job with minimal impact on performance. Employing them as the first exit can remarkably enhance computational efficiency. By searching and employing the most appropriate tiny model as the computational saver for a given large model, the proposed approaches work as a novel and generic method to model compression. This finding will help the research community in exploring new compression methods to address the escalating computational demands posed by rapidly evolving AI models. Our evaluation of this approach in ImageNet-1k classification demonstrates its potential to reduce the number of compute operations by up to 90%, with only negligible losses in performance, across various modern vision models. The code of this work will be available.

arxiv情報

著者 Qingyuan Wang,Barry Cardiff,Antoine Frappé,Benoit Larras,Deepu John
発行日 2024-03-26 14:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク