Learning Emergent Gaits with Decentralized Phase Oscillators: on the role of Observations, Rewards, and Feedback

要約

四足歩行を学習するための最小位相振動子モデルを紹介します。
4 つの振動子のそれぞれは、地面反力のローカル フィードバックを介して、それ自体とその対応する脚にのみ結合されます。これは、オブザーバー フィードバック ゲインとして解釈できます。
発振器自体を潜在接触状態推定器として解釈します。
体系的なアブレーション研究を通じて、フェーズ観察、単純なフェーズベースの報酬、およびローカルフィードバックダイナミクスの組み合わせが、単純な報酬の削減されたセットを使用し、特定の歩行を処方することなく、創発的な歩行の好みを示すポリシーを誘発することを示します。
コードはオープンソースであり、ビデオの概要は https://youtu.be/1NKQ0rSV3jU でご覧いただけます。

要約(オリジナル)

We present a minimal phase oscillator model for learning quadrupedal locomotion. Each of the four oscillators is coupled only to itself and its corresponding leg through local feedback of the ground reaction force, which can be interpreted as an observer feedback gain. We interpret the oscillator itself as a latent contact state-estimator. Through a systematic ablation study, we show that the combination of phase observations, simple phase-based rewards, and the local feedback dynamics induces policies that exhibit emergent gait preferences, while using a reduced set of simple rewards, and without prescribing a specific gait. The code is open-source, and a video synopsis available at https://youtu.be/1NKQ0rSV3jU.

arxiv情報

著者 Jenny Zhang,Steve Heim,Se Hwan Jeon,Sangbae Kim
発行日 2024-02-13 18:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク