CAIMAN: Causal Action Influence Detection for Sample-efficient Loco-manipulation

要約

脚のないロボットが非充実した局所操作を実行できるようにすることは、汎用性を高めるために重要です。
全身オブジェクトをプッシュするなどの学習行動には、多くの場合、特に構造化されていない環境で、洗練された計画戦略または広範なタスク固有の報酬形状が必要です。
この作業では、エージェントが環境内の他のエンティティを制御することを奨励する実用的な強化学習フレームワークであるCaimanを提示します。
Caimanは、因果関係の影響を本質的な動機付けの目的として活用し、脚のあるロボットがまばらなタスク報酬の下でもオブジェクトプッシュスキルを効率的に獲得できるようにします。
低レベルの移動モジュールと、タスク関連の速度コマンドを生成し、本質的な報酬を最大化するように訓練される高レベルのポリシーを組み合わせて、階層制御戦略を採用しています。
因果関係の影響を推定するために、トレーニング中にキネマティックな事前を収集したデータと統合することにより、環境のダイナミクスを学習します。私たちは、シミュレーションの多様なシナリオへのカイマンの優れたサンプル効率と適応性を経験的に実証します。

要約(オリジナル)

Enabling legged robots to perform non-prehensile loco-manipulation is crucial for enhancing their versatility. Learning behaviors such as whole-body object pushing often requires sophisticated planning strategies or extensive task-specific reward shaping, especially in unstructured environments. In this work, we present CAIMAN, a practical reinforcement learning framework that encourages the agent to gain control over other entities in the environment. CAIMAN leverages causal action influence as an intrinsic motivation objective, allowing legged robots to efficiently acquire object pushing skills even under sparse task rewards. We employ a hierarchical control strategy, combining a low-level locomotion module with a high-level policy that generates task-relevant velocity commands and is trained to maximize the intrinsic reward. To estimate causal action influence, we learn the dynamics of the environment by integrating a kinematic prior with data collected during training.We empirically demonstrate CAIMAN’s superior sample efficiency and adaptability to diverse scenarios in simulation, as well as its successful transfer to real-world systems without further fine-tuning.

arxiv情報

著者 Yuanchen Yuan,Jin Cheng,Núria Armengol Urpí,Stelian Coros
発行日 2025-04-28 10:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク