Exploring the Performance and Efficiency of Transformer Models for NLP on Mobile Devices

要約

ディープ ラーニング (DL) は動的な性質を特徴としており、新しいディープ ニューラル ネットワーク (DNN) アーキテクチャとアプローチが数年ごとに登場し、この分野の進歩を推進しています。
同時に、モバイル デバイス (MD) の使用が増え続けているため、DNN ベースのモバイル アプリケーションが急増しています。
CNN や RNN などの従来のアーキテクチャは MD に正常に統合されていますが、トランスフォーマーは当てはまりません。トランスフォーマーは、AI タスク全体で新たなレベルの精度を達成した比較的新しいモデル ファミリですが、重大な計算上の課題を引き起こします。
この研究では、トランスフォーマーのデバイス上での実行の現在の状態を調査することで、このギャップを埋めるための一歩を踏み出すことを目指しています。
この目的を達成するために、私たちは代表的なモデルのベンチマークを構築し、異なる計算能力を持つ MD 間でそのパフォーマンスを徹底的に評価します。
私たちの実験結果は、Transformers がアクセラレータに適していないことを示しており、効率的な導入を実現するにはソフトウェアとハ​​ードウェアの最適化が必要であることを示しています。

要約(オリジナル)

Deep learning (DL) is characterised by its dynamic nature, with new deep neural network (DNN) architectures and approaches emerging every few years, driving the field’s advancement. At the same time, the ever-increasing use of mobile devices (MDs) has resulted in a surge of DNN-based mobile applications. Although traditional architectures, like CNNs and RNNs, have been successfully integrated into MDs, this is not the case for Transformers, a relatively new model family that has achieved new levels of accuracy across AI tasks, but poses significant computational challenges. In this work, we aim to make steps towards bridging this gap by examining the current state of Transformers’ on-device execution. To this end, we construct a benchmark of representative models and thoroughly evaluate their performance across MDs with different computational capabilities. Our experimental results show that Transformers are not accelerator-friendly and indicate the need for software and hardware optimisations to achieve efficient deployment.

arxiv情報

著者 Ioannis Panopoulos,Sokratis Nikolaidis,Stylianos I. Venieris,Iakovos S. Venieris
発行日 2023-06-20 10:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク