要約
シミュレーションで制御ポリシーをトレーニングすることは、安全かつ効率的な方法でさまざまな状態を調査できるため、実際のロボットで直接トレーニングするよりも魅力的です。
しかし、ロボット シミュレーターには現実世界との差異が避けられず、シミュレーションと現実のギャップとして現れる不正確さが生じます。
既存の文献では、特定のシミュレーターのパラメーターを積極的に変更して、シミュレートされたデータを現実世界の観測値と一致させることで、このギャップを埋めることが提案されています。
ただし、調整可能なパラメーターのセットは通常、ケースバイケースで検索スペースを縮小するために手動で選択されるため、複雑なシステムにスケールアップするのは難しく、広範なドメイン知識が必要です。
スケーラビリティの問題に対処し、パラメータ調整プロセスを自動化するために、環境パラメータとシミュレーションと現実のギャップとの間の因果関係を発見することで、シミュレータを現実世界と整合させるアプローチを導入します。
具体的には、私たちの方法は、環境パラメータから、シミュレートされたロボットオブジェクトの軌道と現実世界のロボットオブジェクトの軌道間の差異への微分可能なマッピングを学習します。
このマッピングは、同時に学習された因果グラフによって管理され、パラメーターの検索空間を整理し、より良い解釈を提供し、一般化を向上させるのに役立ちます。
シミュレーションからシムへの転送とシムからリアルへの転送の両方を達成するための実験を実行し、この方法により、困難な操作タスクにおいて、強力なベースラインを超えて軌道の位置合わせとタスクの成功率が大幅に向上することを示します。
要約(オリジナル)
Training control policies in simulation is more appealing than on real robots directly, as it allows for exploring diverse states in a safe and efficient manner. Yet, robot simulators inevitably exhibit disparities from the real world, yielding inaccuracies that manifest as the simulation-to-real gap. Existing literature has proposed to close this gap by actively modifying specific simulator parameters to align the simulated data with real-world observations. However, the set of tunable parameters is usually manually selected to reduce the search space in a case-by-case manner, which is hard to scale up for complex systems and requires extensive domain knowledge. To address the scalability issue and automate the parameter-tuning process, we introduce an approach that aligns the simulator with the real world by discovering the causal relationship between the environment parameters and the sim-to-real gap. Concretely, our method learns a differentiable mapping from the environment parameters to the differences between simulated and real-world robot-object trajectories. This mapping is governed by a simultaneously-learned causal graph to help prune the search space of parameters, provide better interpretability, and improve generalization. We perform experiments to achieve both sim-to-sim and sim-to-real transfer, and show that our method has significant improvements in trajectory alignment and task success rate over strong baselines in a challenging manipulation task.
arxiv情報
著者 | Peide Huang,Xilun Zhang,Ziang Cao,Shiqi Liu,Mengdi Xu,Wenhao Ding,Jonathan Francis,Bingqing Chen,Ding Zhao |
発行日 | 2023-06-28 01:32:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google