要約
軽量ニューラル ネットワークは、高速な推論を交換して予測強度を高めます。
逆に、大規模なディープ ニューラル ネットワークでは、予測誤差は低くなりますが、リソースに制約のあるデバイスでは、推論時間が長くなり、エネルギー消費が高くなります。
このトレードオフは、遅延の影響を受けやすく、パフォーマンスが重要なアプリケーションには受け入れられません。
サーバーへの推論タスクのオフロードは、制限された帯域幅をめぐって高次元データが競合し、クライアント側の貴重なリソースがアイドル状態のままになることによるネットワークの輻輳が避けられないため、満足のいくものではありません。
この研究は、既存の方法ではモバイル エッジ コンピューティングにおける高性能推論の必要性に十分に対応できない理由を示しています。
次に、マシン間通信の帯域幅消費を削減するための新しいトレーニング方法と、リソースを意識した圧縮モデルの一般化可能な設計ヒューリスティックを導入することにより、現在の制限を克服する方法を示します。
エッジ デバイスとサーバー間でリソースが非対称に分散されている環境で、レイテンシと圧縮強度の幅広いベースラインに対して、提案された方法を広範囲に評価します。
エッジ指向の軽量エンコーダーにもかかわらず、私たちの方法はかなり優れた圧縮率を達成します。
要約(オリジナル)
Lightweight neural networks exchange fast inference for predictive strength. Conversely, large deep neural networks have low prediction error but incur prolonged inference times and high energy consumption on resource-constrained devices. This trade-off is unacceptable for latency-sensitive and performance-critical applications. Offloading inference tasks to a server is unsatisfactory due to the inevitable network congestion by high-dimensional data competing for limited bandwidth and leaving valuable client-side resources idle. This work demonstrates why existing methods cannot adequately address the need for high-performance inference in mobile edge computing. Then, we show how to overcome current limitations by introducing a novel training method to reduce bandwidth consumption in Machine-to-Machine communication and a generalizable design heuristic for resource-conscious compression models. We extensively evaluate our proposed method against a wide range of baselines for latency and compressive strength in an environment with asymmetric resource distribution between edge devices and servers. Despite our edge-oriented lightweight encoder, our method achieves considerably better compression rates.
arxiv情報
著者 | Alireza Furutanpey,Philipp Raith,Schahram Dustdar |
発行日 | 2023-02-21 14:03:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google