要約
ロボット工学における中心的な問題は、機敏な移動ロボットの制御システムをどのように設計するかです。
この論文では、自律型ドローンレースという挑戦的な設定に焦点を当てて、この疑問を体系的に研究します。
この設定では、強化学習 (RL) でトレーニングされたニューラル ネットワーク コントローラーが最適制御 (OC) 手法よりも優れたパフォーマンスを発揮したことを示します。
次に、どの基本的要因が RL の成功に寄与しているのか、または OC を制限しているのかを調査しました。
私たちの研究は、OC に対する RL の基本的な利点は、目的をより適切に最適化することではなく、より適切な目的を最適化することであることを示しています。
OC は、インターフェースとして機能する軌道などの明示的な中間表現を使用して、問題を計画と制御に分解します。
この分解により、コントローラーで表現できる動作の範囲が制限され、モデル化されていない効果に直面した場合の制御パフォーマンスの低下につながります。
対照的に、RL はタスク レベルの目標を直接最適化し、ドメインのランダム化を活用してモデルの不確実性に対処できるため、より堅牢な制御応答を発見できます。
私たちの発見により、機敏なドローンのパフォーマンスを最大限に高めることができ、重力加速度の 12 倍を超えるピーク加速と時速 108 キロメートルのピーク速度を達成することができました。
私たちのポリシーは、標準的なワークステーションでのトレーニングから数分以内に超人的なコントロールを達成しました。
この研究はアジャイル ロボティクスにおけるマイルストーンを提示し、ロボット制御における RL と OC の役割に光を当てます。
要約(オリジナル)
A central question in robotics is how to design a control system for an agile mobile robot. This paper studies this question systematically, focusing on a challenging setting: autonomous drone racing. We show that a neural network controller trained with reinforcement learning (RL) outperformed optimal control (OC) methods in this setting. We then investigated which fundamental factors have contributed to the success of RL or have limited OC. Our study indicates that the fundamental advantage of RL over OC is not that it optimizes its objective better but that it optimizes a better objective. OC decomposes the problem into planning and control with an explicit intermediate representation, such as a trajectory, that serves as an interface. This decomposition limits the range of behaviors that can be expressed by the controller, leading to inferior control performance when facing unmodeled effects. In contrast, RL can directly optimize a task-level objective and can leverage domain randomization to cope with model uncertainty, allowing the discovery of more robust control responses. Our findings allowed us to push an agile drone to its maximum performance, achieving a peak acceleration greater than 12 times the gravitational acceleration and a peak velocity of 108 kilometers per hour. Our policy achieved superhuman control within minutes of training on a standard workstation. This work presents a milestone in agile robotics and sheds light on the role of RL and OC in robot control.
arxiv情報
著者 | Yunlong Song,Angel Romero,Matthias Mueller,Vladlen Koltun,Davide Scaramuzza |
発行日 | 2023-10-18 14:32:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google