AdaptiveNet: Post-deployment Neural Architecture Adaptation for Diverse Edge Environments

要約

ディープ ラーニング モデルは、リアルタイム アプリケーション用のエッジ デバイスにますます展開されています。
多様なエッジ環境で安定したサービス品質を確保するには、さまざまな条件に合わせて調整されたモデル アーキテクチャを生成することが強く望まれます。
しかし、従来の展開前モデル生成アプローチでは、多様なエッジ環境への対応の難しさやエッジ情報の需要により、満足のいくものではありませんでした。
このホワイトペーパーでは、モデルの品質を正確に測定し、プライベートエッジデータを保持できるターゲット環境に展開した後、モデルアーキテクチャを適応させることを提案します。
効率的かつ効果的なエッジ モデルの生成を実現するために、事前トレーニングを利用したオンクラウド モデルのエラスティフィケーション メソッドと、エッジに適したオンデバイス アーキテクチャ検索メソッドを導入します。
モデルのエラスティフィケーションは、開発者が指定したオラクル モデルのガイダンスにより、モデル アーキテクチャの高品質の検索空間を生成します。
空間内の各サブネットは、異なる環境アフィニティを持つ有効なモデルであり、各デバイスは、一連のエッジに合わせた最適化に基づいて、最適なサブネットを効率的に見つけて維持します。
さまざまなエッジ デバイスでの広範な実験により、私たちのアプローチが、最小限のオーバーヘッド (クラウドで 13 GPU 時間) で強力なベースラインよりも大幅に優れた精度とレイテンシのトレードオフ (たとえば、60\% のレイテンシ バジェットで平均精度が 46.74\% 高い) を達成できることが示されています。
エッジ サーバーでは 2 分)。

要約(オリジナル)

Deep learning models are increasingly deployed to edge devices for real-time applications. To ensure stable service quality across diverse edge environments, it is highly desirable to generate tailored model architectures for different conditions. However, conventional pre-deployment model generation approaches are not satisfactory due to the difficulty of handling the diversity of edge environments and the demand for edge information. In this paper, we propose to adapt the model architecture after deployment in the target environment, where the model quality can be precisely measured and private edge data can be retained. To achieve efficient and effective edge model generation, we introduce a pretraining-assisted on-cloud model elastification method and an edge-friendly on-device architecture search method. Model elastification generates a high-quality search space of model architectures with the guidance of a developer-specified oracle model. Each subnet in the space is a valid model with different environment affinity, and each device efficiently finds and maintains the most suitable subnet based on a series of edge-tailored optimizations. Extensive experiments on various edge devices demonstrate that our approach is able to achieve significantly better accuracy-latency tradeoffs (e.g. 46.74\% higher on average accuracy with a 60\% latency budget) than strong baselines with minimal overhead (13 GPU hours in the cloud and 2 minutes on the edge server).

arxiv情報

著者 Hao Wen,Yuanchun Li,Zunshuai Zhang,Shiqi Jiang,Xiaozhou Ye,Ye Ouyang,Ya-Qin Zhang,Yunxin Liu
発行日 2023-03-13 13:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク