Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead

要約

エッジコンピューティングシステムやIoTネットワークなど、計算リソースが限られているタイムクリティカルなアプリケーションにディープラーニングモデルを展開することは、早期終了などの動的推論方法に依存することが多い困難な作業です。
このホワイトペーパーでは、ビジョントランスフォーマーアーキテクチャに基づく早期終了のための新しいアーキテクチャと、従来のアプローチと比較して早期終了ブランチの精度を大幅に向上させ、オーバーヘッドを削減する微調整戦略を紹介します。
画像と音声の分類、および視聴覚群集のカウントに関する広範な実験を通じて、私たちの方法が分類と回帰の両方の問題、およびシングルモーダルとマルチモーダルの両方の設定で機能することを示します。
さらに、視聴覚データ分析の初期の出口内で音声と視覚のモダリティを統合するための新しい方法を紹介します。これにより、よりきめ細かい動的推論につながる可能性があります。

要約(オリジナル)

Deploying deep learning models in time-critical applications with limited computational resources, for instance in edge computing systems and IoT networks, is a challenging task that often relies on dynamic inference methods such as early exiting. In this paper, we introduce a novel architecture for early exiting based on the vision transformer architecture, as well as a fine-tuning strategy that significantly increase the accuracy of early exit branches compared to conventional approaches while introducing less overhead. Through extensive experiments on image and audio classification as well as audiovisual crowd counting, we show that our method works for both classification and regression problems, and in both single- and multi-modal settings. Additionally, we introduce a novel method for integrating audio and visual modalities within early exits in audiovisual data analysis, that can lead to a more fine-grained dynamic inference.

arxiv情報

著者 Arian Bakhtiarnia,Qi Zhang,Alexandros Iosifidis
発行日 2022-06-29 08:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク