要約
空中操作の分野は急速な進歩を遂げており、押してスライドするタスクから多関節オブジェクトとのインタラクションへと移行しています。
これまでのところ、より複雑なアクションが実行される場合、モーション軌跡は通常、手動で作成されるか、モデル予測制御 (MPC) やモデル予測パス積分 (MPPI) 制御などのオンライン最適化手法の結果によって作成されます。
ただし、これらの方法はヒューリスティックまたはモデルの単純化に依存してオンボード ハードウェアで効率的に実行され、許容可能な時間内で結果が得られます。
さらに、実際の環境とシミュレートされた環境の間の外乱や違いに敏感になる可能性があります。
この研究では、外乱やモデル化エラーに対して堅牢なポリシーを生成しながら、操作タスクの動作動作を学習する強化学習 (RL) アプローチを提案します。
具体的には、全方向超小型航空機 (OMAV) を使用してドアを開けるタスクを実行するポリシーをトレーニングします。
ポリシーは物理シミュレーターでトレーニングされ、実験はシミュレーションと実際のプラットフォーム上で実行される両方で提示され、シミュレーションから現実世界への移行を調査します。
私たちの方法を最先端の MPPI ソリューションと比較すると、堅牢性と速度が大幅に向上していることがわかります。
要約(オリジナル)
The field of aerial manipulation has seen rapid advances, transitioning from push-and-slide tasks to interaction with articulated objects. So far, when more complex actions are performed, the motion trajectory is usually handcrafted or a result of online optimization methods like Model Predictive Control (MPC) or Model Predictive Path Integral (MPPI) control. However, these methods rely on heuristics or model simplifications to efficiently run on onboard hardware, producing results in acceptable amounts of time. Moreover, they can be sensitive to disturbances and differences between the real environment and its simulated counterpart. In this work, we propose a Reinforcement Learning (RL) approach to learn motion behaviors for a manipulation task while producing policies that are robust to disturbances and modeling errors. Specifically, we train a policy to perform a door-opening task with an Omnidirectional Micro Aerial Vehicle (OMAV). The policy is trained in a physics simulator and experiments are presented both in simulation and running onboard the real platform, investigating the simulation to real world transfer. We compare our method against a state-of-the-art MPPI solution, showing a considerable increase in robustness and speed.
arxiv情報
| 著者 | Eugenio Cuniato,Ismail Geles,Weixuan Zhang,Olov Andersson,Marco Tognon,Roland Siegwart | 
| 発行日 | 2023-07-28 14:28:32+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
