要約
モバイル AI アクセラレーターの台頭により、レイテンシーの影響を受けやすいアプリケーションは、クライアント側で軽量のディープ ニューラル ネットワーク (DNN) を実行できます。
ただし、重要なアプリケーションには、エッジ デバイスがホストできない強力なモデルが必要なため、要求をオフロードする必要があり、高次元データが限られた帯域幅で競合します。
この作業は、分割された DNN の浅い層の実行に焦点を当てることから離れることを提案しています。
代わりに、マシンの解釈可能性のために最適化された変分圧縮にローカル リソースを集中させることを提唱しています。
リソースを意識した圧縮モデルの新しいフレームワークを導入し、エッジ デバイスとサーバー間の非対称リソース分散を反映する環境でこの方法を広く評価します。
私たちの方法は、精度を低下させることなく、最先端の SC 方法よりも 60\% 低いビットレートを達成し、既存のコーデック標準によるオフロードよりも最大 16 倍高速です。
要約(オリジナル)
The rise of mobile AI accelerators allows latency-sensitive applications to execute lightweight Deep Neural Networks (DNNs) on the client side. However, critical applications require powerful models that edge devices cannot host and must therefore offload requests, where the high-dimensional data will compete for limited bandwidth. This work proposes shifting away from focusing on executing shallow layers of partitioned DNNs. Instead, it advocates concentrating the local resources on variational compression optimized for machine interpretability. We introduce a novel framework for resource-conscious compression models and extensively evaluate our method in an environment reflecting the asymmetric resource distribution between edge devices and servers. Our method achieves 60\% lower bitrate than a state-of-the-art SC method without decreasing accuracy and is up to 16x faster than offloading with existing codec standards.
arxiv情報
著者 | Alireza Furutanpey,Philipp Raith,Schahram Dustdar |
発行日 | 2023-03-20 15:40:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google