A Simple Open-Loop Baseline for Reinforcement Learning Locomotion Tasks

要約

移動タスクに関して深層強化学習と競合できる最も単純なベースラインを求めて、生物学的にヒントを得たモデルフリーの開ループ戦略を提案します。
事前の知識を利用し、周期的な関節運動を生成するためのシンプルな発振器の優雅さを利用することで、RL アルゴリズムで通常必要とされる数千のほんの一部である調整可能なパラメーターの数を使用して、5 つの異なる移動環境でかなりのパフォーマンスを達成します。
センサーのノイズや障害にさらされるとパフォーマンスが低下しやすい RL 方式とは異なり、当社のオープンループ発振器はセンサーに依存しないため、顕著な堅牢性を示します。
さらに、ランダム化や報酬エンジニアリングを必要とせずに、弾性四足動物を使用してシミュレーションから現実への移行に成功したことを紹介します。
全体として、提案されたベースラインと関連する実験は、ロボット アプリケーションに対する DRL の既存の制限を強調し、それらに対処する方法についての洞察を提供し、複雑さと汎用性のコストについての考察を促します。

要約(オリジナル)

In search of the simplest baseline capable of competing with Deep Reinforcement Learning on locomotion tasks, we propose a biologically inspired model-free open-loop strategy. Drawing upon prior knowledge and harnessing the elegance of simple oscillators to generate periodic joint motions, it achieves respectable performance in five different locomotion environments, with a number of tunable parameters that is a tiny fraction of the thousands typically required by RL algorithms. Unlike RL methods, which are prone to performance degradation when exposed to sensor noise or failure, our open-loop oscillators exhibit remarkable robustness due to their lack of reliance on sensors. Furthermore, we showcase a successful transfer from simulation to reality using an elastic quadruped, all without the need for randomization or reward engineering. Overall, the proposed baseline and associated experiments highlight the existing limitations of DRL for robotic applications, provide insights on how to address them, and encourage reflection on the costs of complexity and generality.

arxiv情報

著者 Antonin Raffin,Olivier Sigaud,Jens Kober,Alin Albu-Schäffer,João Silvério,Freek Stulp
発行日 2023-11-30 17:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク