Causal Policy Gradient for Whole-Body Mobile Manipulation

要約

次世代の家庭用ロボットヘルパーを開発するには、ロコモーションとインタラクション機能を組み合わせる必要があり、これは一般にモバイルマニピュレーション(MoMa)と呼ばれる。MoMaタスクは、ロボットの行動空間が広いことと、障害物を避けながら効率よくゴールに到達するなどのタスクに共通する多目的の性質があるため、困難です。現在のアプローチでは、行動空間の一部をMoMaのサブ目標(例えば、ロコモーション目標のためのベースアクションとマニピュレーションのためのアームアクション)に手動でマッチングすることによって、タスクをマニピュレーションなしのナビゲーションとロコモーションなしの静止したマニピュレーションに分離することが多い。この方法では、運動と操作の自由度を同時に組み合わせることができず、行動空間の分割と行動部分のサブオブジェクトへのマッチングの両方に人間の領域知識が必要となります。本論文では、典型的なMoMaタスクのポリシーを学習するための新しいフレームワークであるCausal MoMaを紹介し、ロボットの行動空間の最も好ましい部分空間を利用して各サブオブジェクトに対処することを提案する。Causal MoMaは、行動と報酬関数の項との間の因果的な依存関係を自動的に発見し、これらの依存関係を利用した因果的な政策学習手順により、これまでの最先端の政策勾配アルゴリズムと比較して勾配の分散を減らし、収束と結果を改善する。我々は、異なるMoMaタスクにわたる3種類のシミュレーションロボットでCausal MoMaの性能を評価し、シミュレーションで学習したポリシーを実際のロボットに直接転送することに成功したことを実証しました。我々のエージェントは、ベース、アーム、ヘッドという全身を同時にかつ相乗的に制御しながら、動く目標を追い、動的な障害物に反応することができます。詳細は、https://sites.google.com/view/causal-moma。

要約(オリジナル)

Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. base actions for locomotion objectives and arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot’s action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies in a causal policy learning procedure that reduces gradient variance compared to previous state-of-the-art policy gradient algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma.

arxiv情報

著者 Jiaheng Hu,Peter Stone,Roberto Martín-Martín
発行日 2023-05-11 07:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク