要約
ディープ ニューラル ネットワーク (DNN) ビデオ分析は、自動運転車、無人航空機 (UAV)、セキュリティ ロボットなどの自律システムにとって重要です。
ただし、実際の展開では、計算リソースとバッテリー電力が限られているため、課題に直面しています。
これらの課題に取り組むために、継続的学習では展開時に軽量の「生徒」モデルを利用し (推論)、サンプリングされたデータにラベルを付けるために大規模な「教師」モデルを活用し (ラベル付け)、変化するシナリオに適応するために生徒モデルを継続的に再トレーニングします (再トレーニング)。
このペーパーでは、最先端の継続学習システムの限界を強調しています。(1) 再トレーニングのための計算に重点を置き、推論やラベル付けのための計算ニーズを無視しています。(2) 電力を大量に消費する GPU に依存しているため、システムには適していません。
(3) それらは、マルチテナントのシナリオを目的としたリモートの集中サーバー上に配置されていますが、プライバシー、ネットワークの可用性、遅延の問題により、やはり自律システムには適していません。
私たちは、ハードウェアとアルゴリズムが共同設計された継続学習ソリューション DaCapo を提案します。これにより、自律システムが推論、ラベル付け、トレーニングをパフォーマンスとエネルギー効率の高い方法で同時に実行できるようになります。
DaCapo は、(1) それぞれの精度でサブアクセラレーター上でカーネルの並列実行を可能にする、空間的に分割可能で精度に柔軟性のあるアクセラレーター、および (2) リソースと精度のトレードオフ空間を戦略的にナビゲートし、最適な決定を容易にする時空間リソース割り当てアルゴリズムで構成されます。
最大限の精度を達成するためのリソース割り当て。
私たちの評価では、DaCapo は最先端の GPU ベースの継続学習システムである Ekya と EOMU よりもそれぞれ 6.5% と 5.5% 高い精度を達成しながら、消費電力は 254 分の 1 少ないことがわかりました。
要約(オリジナル)
Deep neural network (DNN) video analytics is crucial for autonomous systems such as self-driving vehicles, unmanned aerial vehicles (UAVs), and security robots. However, real-world deployment faces challenges due to their limited computational resources and battery power. To tackle these challenges, continuous learning exploits a lightweight ‘student’ model at deployment (inference), leverages a larger ‘teacher’ model for labeling sampled data (labeling), and continuously retrains the student model to adapt to changing scenarios (retraining). This paper highlights the limitations in state-of-the-art continuous learning systems: (1) they focus on computations for retraining, while overlooking the compute needs for inference and labeling, (2) they rely on power-hungry GPUs, unsuitable for battery-operated autonomous systems, and (3) they are located on a remote centralized server, intended for multi-tenant scenarios, again unsuitable for autonomous systems due to privacy, network availability, and latency concerns. We propose a hardware-algorithm co-designed solution for continuous learning, DaCapo, that enables autonomous systems to perform concurrent executions of inference, labeling, and training in a performant and energy-efficient manner. DaCapo comprises (1) a spatially-partitionable and precision-flexible accelerator enabling parallel execution of kernels on sub-accelerators at their respective precisions, and (2) a spatiotemporal resource allocation algorithm that strategically navigates the resource-accuracy tradeoff space, facilitating optimal decisions for resource allocation to achieve maximal accuracy. Our evaluation shows that DaCapo achieves 6.5% and 5.5% higher accuracy than a state-of-the-art GPU-based continuous learning systems, Ekya and EOMU, respectively, while consuming 254x less power.
arxiv情報
著者 | Yoonsung Kim,Changhun Oh,Jinwoo Hwang,Wonung Kim,Seongryong Oh,Yubin Lee,Hardik Sharma,Amir Yazdanbakhsh,Jongse Park |
発行日 | 2024-07-16 13:32:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google