要約
リアルタイム学習は、絶えず変化する非定常環境に適応するロボットエージェントにとって非常に重要です。
ロボット エージェントの一般的なセットアップは、ロボットに接続されたリソースが限られたローカル コンピューターと、ワイヤレスで接続された強力なリモート コンピューターという 2 つの異なるコンピューターを同時に使用することです。
このような設定を考えると、学習システムのパフォーマンスがリソースの制限によってどの程度影響を受けるのか、また、パフォーマンスの損失を補うためにワイヤレス接続された強力なコンピューターを効率的に使用する方法は不明です。
この論文では、リモートローカル分散 (ReLoD) システムと呼ばれるリアルタイム学習システムを実装して、2 つの深層強化学習 (RL) アルゴリズム、ソフト アクター クリティカル (SAC) と近接ポリシー最適化 (PPO) の計算を分散します。
ローカルコンピュータとリモートコンピュータの間。
システムの性能は、ロボット アームと移動ロボットを使用して開発された 2 つの視覚ベースの制御タスクで評価されます。
私たちの結果は、リソースが限られたローカル コンピューターでは SAC のパフォーマンスが大幅に低下することを示しています。
驚くべきことに、学習システムのすべての計算がリモート ワークステーションに展開されている場合、SAC はパフォーマンスの損失を補うことができません。これは、慎重に検討しなければ、強力なリモート コンピューターを使用してもパフォーマンスの向上が得られない可能性があることを示しています。
ただし、SAC の計算の分散を慎重に選択すると、両方のタスクのパフォーマンスが一貫して大幅に向上します。
一方、PPO のパフォーマンスは、計算の分散による影響をほとんど受けません。
さらに、すべての計算が強力なテザリングされたコンピューター上でのみ行われる場合、システムのパフォーマンスは、単一のコンピューターを使用するために適切に調整された既存のシステムと同等のままです。
ReLoD は、ビジョンベースのタスク用の複数のロボットに適用されるリアルタイム RL 用の唯一の公的に利用可能なシステムです。
要約(オリジナル)
Real-time learning is crucial for robotic agents adapting to ever-changing, non-stationary environments. A common setup for a robotic agent is to have two different computers simultaneously: a resource-limited local computer tethered to the robot and a powerful remote computer connected wirelessly. Given such a setup, it is unclear to what extent the performance of a learning system can be affected by resource limitations and how to efficiently use the wirelessly connected powerful computer to compensate for any performance loss. In this paper, we implement a real-time learning system called the Remote-Local Distributed (ReLoD) system to distribute computations of two deep reinforcement learning (RL) algorithms, Soft Actor-Critic (SAC) and Proximal Policy Optimization (PPO), between a local and a remote computer. The performance of the system is evaluated on two vision-based control tasks developed using a robotic arm and a mobile robot. Our results show that SAC’s performance degrades heavily on a resource-limited local computer. Strikingly, when all computations of the learning system are deployed on a remote workstation, SAC fails to compensate for the performance loss, indicating that, without careful consideration, using a powerful remote computer may not result in performance improvement. However, a carefully chosen distribution of computations of SAC consistently and substantially improves its performance on both tasks. On the other hand, the performance of PPO remains largely unaffected by the distribution of computations. In addition, when all computations happen solely on a powerful tethered computer, the performance of our system remains on par with an existing system that is well-tuned for using a single machine. ReLoD is the only publicly available system for real-time RL that applies to multiple robots for vision-based tasks.
arxiv情報
著者 | Yan Wang,Gautham Vasan,A. Rupam Mahmood |
発行日 | 2023-06-26 22:43:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google