DiAReL: Reinforcement Learning with Disturbance Awareness for Robust Sim2Real Policy Transfer in Robot Control

要約

遅延マルコフ決定プロセスは、最近コミットされたアクションの有限の時間枠でエージェントの状態空間を拡張することでマルコフ特性を満たします。
これらの状態拡張に依存して、遅延解決強化学習アルゴリズムは、観察またはアクションの遅延を特徴とする環境との最適な相互作用を学習するポリシーをトレーニングします。
このような方法は実際のロボット上で直接トレーニングすることもできますが、サンプルの非効率性、限られたリソース、または安全上の制約のため、一般的なアプローチは、シミュレーションでトレーニングされたモデルを物理的なロボットに転送することです。
ただし、ロボット シミュレーションは物理システムの近似モデルに依存しているため、sim2real の転送が妨げられます。
この研究では、ロボットのダイナミクスのモデリングにおけるさまざまな不確実性を、システム入力に適用される未知の固有外乱として考慮します。
ポリシーに基づく強化学習アルゴリズムのトレーニングに外乱推定を組み込むための新しい表現として、遅延設定での外乱拡張マルコフ決定プロセスを導入します。
提案された方法は、ロボットによる到達タスクの学習に関するいくつかの指標にわたって検証され、外乱を考慮しないベースラインと比較されます。
結果は、外乱増強モデルが制御応答においてより高い安定性とロバスト性を達成できることを示しており、これにより sim2real 転送が成功する可能性が向上します。

要約(オリジナル)

Delayed Markov decision processes fulfill the Markov property by augmenting the state space of agents with a finite time window of recently committed actions. In reliance with these state augmentations, delay-resolved reinforcement learning algorithms train policies to learn optimal interactions with environments featured with observation or action delays. Although such methods can directly be trained on the real robots, due to sample inefficiency, limited resources or safety constraints, a common approach is to transfer models trained in simulation to the physical robot. However, robotic simulations rely on approximated models of the physical systems, which hinders the sim2real transfer. In this work, we consider various uncertainties in the modelling of the robot’s dynamics as unknown intrinsic disturbances applied on the system input. We introduce a disturbance-augmented Markov decision process in delayed settings as a novel representation to incorporate disturbance estimation in training on-policy reinforcement learning algorithms. The proposed method is validated across several metrics on learning a robotic reaching task and compared with disturbance-unaware baselines. The results show that the disturbance-augmented models can achieve higher stabilization and robustness in the control response, which in turn improves the prospects of successful sim2real transfer.

arxiv情報

著者 Mohammadhossein Malmir,Josip Josifovski,Noah Klarmann,Alois Knoll
発行日 2023-06-15 10:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク