要約
このペーパーでは、シミュレートされた経験で制御ポリシーをトレーニングするための既存のSIMからリアルの方法に代わる新しい代替案を提案します。
足のロボットの以前のSIM-REALメソッドは、主にドメインランダム化アプローチに依存しています。このシミュレーションパラメーターの固定有限セットは、トレーニング中にランダム化されます。
代わりに、私たちの方法は、トレーニングフェーズ中のフォワードシミュレーションに使用される入力ジョイントトルクに状態依存の摂動を追加します。
これらの状態依存の摂動は、シミュレーションパラメーターの固定セットをランダム化することによってキャプチャされたものよりも広範な範囲の現実ギャップをシミュレートするように設計されています。
実験結果は、私たちの方法が、トレーニングドメインで目にされていない複雑な現実のギャップに対してより大きな堅牢性を達成するヒューマノイド運動ポリシーを可能にすることを示しています。
要約(オリジナル)
This paper proposes a novel alternative to existing sim-to-real methods for training control policies with simulated experiences. Prior sim-to-real methods for legged robots mostly rely on the domain randomization approach, where a fixed finite set of simulation parameters is randomized during training. Instead, our method adds state-dependent perturbations to the input joint torque used for forward simulation during the training phase. These state-dependent perturbations are designed to simulate a broader range of reality gaps than those captured by randomizing a fixed set of simulation parameters. Experimental results show that our method enables humanoid locomotion policies that achieve greater robustness against complex reality gaps unseen in the training domain.
arxiv情報
著者 | Woohyun Cha,Junhyeok Cha,Jaeyong Shin,Donghyeon Kim,Jaeheung Park |
発行日 | 2025-04-09 05:25:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google