要約
シミュレーションは、現実世界への実装前の強化学習 (RL)、特にロボット操作などの安全性が重要なアプリケーションにとって不可欠です。
従来、RL エージェントは、シミュレーションと現実のギャップとして知られる、シミュレーションと現実世界の間の差異に敏感です。
このギャップを埋めるために使用される技術であるドメインランダム化の適用は、ヒューリスティックランダム化モデルの適用に限定されています。
{私たちは、市販のシミュレーション ソフトウェアのリアルタイム シミュレーション (RT-IS) の固有の確率性の特性と、RL パフォーマンスを向上させる可能性を調査します。
この改善には、ノイズとモデルの不正確さに対する耐性が向上し、使いやすさと自動化の点で従来のドメインのランダム化よりも優れていることが含まれます。
まず、RT-ISとコンピュータハードウェアの利用との相関関係を測定し、物理ロボットの自然な確率性との比較可能性を検証するための分析研究を実施します。
次に、RL エージェントのトレーニングで RT-IS 機能を活用します。
シミュレーションと物理実験の結果は、ロボット操作タスクの堅牢なエージェント トレーニングに対する RT-IS の実現可能性と適用性を検証します。
RT-IS を利用した RL エージェントは、モデリングの不確実性を伴うロボット上の従来のエージェントよりも優れたパフォーマンスを発揮します。
RT-IS は、ヒューリスティックなランダム化をあまり必要とせず、タスクに依存せず、従来のドメインランダム化を利用したエージェントよりも優れた汎用性を実現します。
私たちの発見は、ロボット操作タスクなどの実際のアプリケーションにおけるシミュレーションと現実の問題について新しい視点を提供します。
要約(オリジナル)
Simulation is essential to reinforcement learning (RL) before implementation in the real world, especially for safety-critical applications like robot manipulation. Conventionally, RL agents are sensitive to the discrepancies between the simulation and the real world, known as the sim-to-real gap. The application of domain randomization, a technique used to fill this gap, is limited to the imposition of heuristic-randomized models. {We investigate the properties of intrinsic stochasticity of real-time simulation (RT-IS) of off-the-shelf simulation software and its potential to improve RL performance. This improvement includes a higher tolerance to noise and model imprecision and superiority to conventional domain randomization in terms of ease of use and automation. Firstly, we conduct analytical studies to measure the correlation of RT-IS with the utilization of computer hardware and validate its comparability with the natural stochasticity of a physical robot. Then, we exploit the RT-IS feature in the training of an RL agent. The simulation and physical experiment results verify the feasibility and applicability of RT-IS to robust agent training for robot manipulation tasks. The RT-IS-powered RL agent outperforms conventional agents on robots with modeling uncertainties. RT-IS requires less heuristic randomization, is not task-dependent, and achieves better generalizability than the conventional domain-randomization-powered agents. Our findings provide a new perspective on the sim-to-real problem in practical applications like robot manipulation tasks.
arxiv情報
| 著者 | Ram Dershan,Amir M. Soufi Enayati,Zengjie Zhang,Dean Richert,Homayoun Najjaran |
| 発行日 | 2023-08-06 12:16:35+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google