要約
シミュレーションで制御ポリシーをトレーニングすることは、効率的な方法で多様な状態を調査できるため、実際のロボットで直接トレーニングするよりも魅力的です。
しかし、ロボット シミュレーターは現実世界の \rebut{ダイナミクス} との差異を必然的に示し、動的シミュレーションと現実 (シミュレーションと現実) のギャップとして現れる不正確さをもたらします。
既存の文献では、特定のシミュレーターのパラメーターを積極的に変更して、シミュレートされたデータを現実世界の観測値と一致させることで、このギャップを埋めることが提案されています。
ただし、調整可能なパラメーターのセットは通常、ケースバイケースで検索スペースを縮小するために手動で選択されるため、複雑なシステムにスケールアップするのは難しく、広範なドメイン知識が必要です。
スケーラビリティの問題に対処し、パラメータ調整プロセスを自動化するために、COMPASS を導入します。COMPASS は、環境パラメータとシミュレーションと現実のギャップの間の因果関係を発見することで、シミュレータを現実世界と調整します。
具体的には、私たちの方法は、環境パラメータから、シミュレートされたロボットオブジェクトの軌道と現実世界のロボットオブジェクトの軌道間の差異への微分可能なマッピングを学習します。
このマッピングは、同時に学習された因果グラフによって管理され、パラメータの検索空間を整理し、より良い解釈を提供し、目に見えないパラメータの一般化を改善するのに役立ちます。
sim-to-sim と sim-to-real の両方の転送を達成するための実験を実行し、いくつかの困難な操作タスクにおいて、この方法により軌道の位置合わせとタスクの成功率が強力なベースラインを超えて大幅に向上することを示します。
要約(オリジナル)
Training control policies in simulation is more appealing than on real robots directly, as it allows for exploring diverse states in an efficient manner. Yet, robot simulators inevitably exhibit disparities from the real-world \rebut{dynamics}, yielding inaccuracies that manifest as the dynamical simulation-to-reality (sim-to-real) gap. Existing literature has proposed to close this gap by actively modifying specific simulator parameters to align the simulated data with real-world observations. However, the set of tunable parameters is usually manually selected to reduce the search space in a case-by-case manner, which is hard to scale up for complex systems and requires extensive domain knowledge. To address the scalability issue and automate the parameter-tuning process, we introduce COMPASS, which aligns the simulator with the real world by discovering the causal relationship between the environment parameters and the sim-to-real gap. Concretely, our method learns a differentiable mapping from the environment parameters to the differences between simulated and real-world robot-object trajectories. This mapping is governed by a simultaneously learned causal graph to help prune the search space of parameters, provide better interpretability, and improve generalization on unseen parameters. We perform experiments to achieve both sim-to-sim and sim-to-real transfer, and show that our method has significant improvements in trajectory alignment and task success rate over strong baselines in several challenging manipulation tasks.
arxiv情報
著者 | Peide Huang,Xilun Zhang,Ziang Cao,Shiqi Liu,Mengdi Xu,Wenhao Ding,Jonathan Francis,Bingqing Chen,Ding Zhao |
発行日 | 2023-10-19 18:41:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google