Preference Aligned Diffusion Planner for Quadrupedal Locomotion Control

要約

拡散モデルは、大規模なデータセットから複雑な分布を捕捉する際に優れたパフォーマンスを示し、四足歩行制御に有望なソリューションを提供します。
ただし、データセット内の州の範囲が限られているため、オフライン ポリシーは配布外 (OOD) 状態の影響を受けやすくなります。
この研究では、脚の移動制御のためのオフライン学習とオンラインの好み調整を組み合わせた 2 段階の学習フレームワークを提案します。
オフライン段階を通じて、拡散プランナーは報酬ラベルを使用せずに専門家のデータセットから状態と行動のシーケンスの同時分布を学習します。
続いて、トレーニングされたオフライン プランナーに基づいてシミュレーション環境でオンライン インタラクションを実行します。これにより、OOD の問題が大幅に解決され、堅牢性が向上します。
具体的には、グラウンドトゥルース報酬や人間の好みを使用しない、新しい弱い好みのラベル付け方法を提案します。
提案された方法は、低速シナリオと高速シナリオの両方でペーシング、速歩、境界歩行において優れた安定性と速度追跡精度を示し、実際の Unitree Go1 ロボットへのゼロショット転送を実行できます。
この論文のプロジェクト Web サイトは https://shangjaven.github.io/preference-aligned-diffusion-legged/ にあります。

要約(オリジナル)

Diffusion models demonstrate superior performance in capturing complex distributions from large-scale datasets, providing a promising solution for quadrupedal locomotion control. However, offline policy is sensitive to Out-of-Distribution (OOD) states due to the limited state coverage in the datasets. In this work, we propose a two-stage learning framework combining offline learning and online preference alignment for legged locomotion control. Through the offline stage, the diffusion planner learns the joint distribution of state-action sequences from expert datasets without using reward labels. Subsequently, we perform the online interaction in the simulation environment based on the trained offline planer, which significantly addresses the OOD issues and improves the robustness. Specifically, we propose a novel weak preference labeling method without the ground-truth reward or human preferences. The proposed method exhibits superior stability and velocity tracking accuracy in pacing, trotting, and bounding gait under both slow- and high-speed scenarios and can perform zero-shot transfer to the real Unitree Go1 robots. The project website for this paper is at https://shangjaven.github.io/preference-aligned-diffusion-legged/.

arxiv情報

著者 Xinyi Yuan,Zhiwei Shang,Zifan Wang,Chenkai Wang,Zhao Shan,Zhenchao Qi,Meixin Zhu,Chenjia Bai,Xuelong Li
発行日 2024-10-17 14:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク