R^3: On-device Real-Time Deep Reinforcement Learning for Autonomous Robotics

要約

自律走行車やロボット捜索救助などの自律ロボット システムでは、動的環境で深層強化学習 (DRL) モデルを継続的に適応させるための効率的なオンデバイス トレーニングが必要です。
この研究は基本的に、オンデバイスのリアルタイム DRL の課題を理解し、対処する必要性によって動機付けられています。これには、広範な実証研究を通じて明らかになった、メモリ制約下でのタイミングとアルゴリズムのパフォーマンスのバランスをとることが含まれます。
この複雑なバランスには、DRL トレーニングの 2 つの重要なパラメータであるバッチ サイズとリプレイ バッファ サイズを同時に最適化する必要があります。
これらのパラメータの設定は、タイミングとアルゴリズムのパフォーマンスに大きな影響を与えますが、最適に近いパフォーマンスを達成するには、(残念ながら)両方ともかなりのメモリ割り当てが必要です。
このペーパーでは、オンデバイスのリアルタイム DRL トレーニングでタイミング、メモリ、アルゴリズムのパフォーマンスを管理するための総合的なソリューションである R^3 について説明します。
R^3 は、(i) タイミングを最適化するための動的なバッチ サイズ設定を備えたデッドライン主導のフィードバック ループ、(ii) メモリ フットプリントを削減し、より大きなリプレイ バッファ サイズを可能にする効率的なメモリ管理、および (iii) ヒューリスティック分析に基づいたランタイム コーディネーターを採用しています。
メモリ リソースの予約を動的に調整するためのランタイム プロファイラー。
これらのコンポーネントは、オンデバイス DRL トレーニングのトレードオフに連携して対処し、メモリ不足 (OOM) エラーのリスクを最小限に抑えながら、タイミングとアルゴリズムのパフォーマンスを向上させます。
私たちは、自律ロボット システムで一般的に採用されている 3 つのハードウェア プラットフォーム上のさまざまな DRL フレームワークとベンチマークにわたって R^3 を広範囲に実装して評価しました。
さらに、R^3 を人気のある現実的な自動運転車シミュレーターと統合して、現実世界への適用可能性を実証します。
評価結果は、R^3 がさまざまなプラットフォームにわたって有効性を実現し、最小限のオーバーヘッドで一貫したレイテンシ パフォーマンスとタイミング予測可能性を確保していることを示しています。

要約(オリジナル)

Autonomous robotic systems, like autonomous vehicles and robotic search and rescue, require efficient on-device training for continuous adaptation of Deep Reinforcement Learning (DRL) models in dynamic environments. This research is fundamentally motivated by the need to understand and address the challenges of on-device real-time DRL, which involves balancing timing and algorithm performance under memory constraints, as exposed through our extensive empirical studies. This intricate balance requires co-optimizing two pivotal parameters of DRL training — batch size and replay buffer size. Configuring these parameters significantly affects timing and algorithm performance, while both (unfortunately) require substantial memory allocation to achieve near-optimal performance. This paper presents R^3, a holistic solution for managing timing, memory, and algorithm performance in on-device real-time DRL training. R^3 employs (i) a deadline-driven feedback loop with dynamic batch sizing for optimizing timing, (ii) efficient memory management to reduce memory footprint and allow larger replay buffer sizes, and (iii) a runtime coordinator guided by heuristic analysis and a runtime profiler for dynamically adjusting memory resource reservations. These components collaboratively tackle the trade-offs in on-device DRL training, improving timing and algorithm performance while minimizing the risk of out-of-memory (OOM) errors. We implemented and evaluated R^3 extensively across various DRL frameworks and benchmarks on three hardware platforms commonly adopted by autonomous robotic systems. Additionally, we integrate R^3 with a popular realistic autonomous car simulator to demonstrate its real-world applicability. Evaluation results show that R^3 achieves efficacy across diverse platforms, ensuring consistent latency performance and timing predictability with minimal overhead.

arxiv情報

著者 Zexin Li,Aritra Samanta,Yufei Li,Andrea Soltoggio,Hyoseung Kim,Cong Liu
発行日 2023-08-29 05:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク