要約
モバイルAIアクセラレーターの台頭により、レイテンシーに敏感なアプリケーションはクライアント側で軽量のディープ・ニューラル・ネットワーク(DNN)を実行できるようになった。しかし、重要なアプリケーションは、エッジデバイスがホストできない強力なモデルを必要とするため、高次元データが限られた帯域幅で競合するようなリクエストをオフロードする必要がある。この研究では、分割されたDNNの浅いレイヤーの実行に集中することからシフトすることを提案する。その代わりに、機械解釈可能なように最適化された変分圧縮にローカルリソースを集中させることを提唱する。我々は、リソースを意識した圧縮モデルのための新しいフレームワークを導入し、エッジデバイスとサーバー間の非対称なリソース配分を反映した環境で、我々の方法を広範囲に評価する。本手法は、精度を低下させることなく、最新のSC手法よりも60%低いビットレートを達成し、既存のコーデック標準によるオフロードよりも最大16倍高速である。
要約(オリジナル)
The rise of mobile AI accelerators allows latency-sensitive applications to execute lightweight Deep Neural Networks (DNNs) on the client side. However, critical applications require powerful models that edge devices cannot host and must therefore offload requests, where the high-dimensional data will compete for limited bandwidth. This work proposes shifting away from focusing on executing shallow layers of partitioned DNNs. Instead, it advocates concentrating the local resources on variational compression optimized for machine interpretability. We introduce a novel framework for resource-conscious compression models and extensively evaluate our method in an environment reflecting the asymmetric resource distribution between edge devices and servers. Our method achieves 60% lower bitrate than a state-of-the-art SC method without decreasing accuracy and is up to 16x faster than offloading with existing codec standards.
arxiv情報
著者 | Alireza Furutanpey,Philipp Raith,Schahram Dustdar |
発行日 | 2023-07-02 23:51:57+00:00 |
arxivサイト | arxiv_id(pdf) |