Causal Policy Gradient for Whole-Body Mobile Manipulation

要約

次世代の家庭用ロボットヘルパーの開発には、一般に移動操作(MoMa)と呼ばれるロコモーションとインタラクション機能を組み合わせる必要がある。MoMaタスクは、ロボットの行動空間が広いことや、障害物を避けながら効率的にゴールに到達するなどのタスクに共通する多目的性から困難である。現在のアプローチでは、行動空間の一部をMoMaのサブ目的(例えば、ロコモーション目的にはベースアクション、マニピュレーション目的にはアームアクション)に手動でマッチングさせることで、タスクをマニピュレーションなしのナビゲーションとロコモーションなしの静止マニピュレーションに分離することが多い。この解決法は、運動自由度と相互作用自由度の同時組み合わせを防止し、行動空間の分割と行動部分のサブ目標へのマッチングの両方に人間の領域知識を必要とします。本論文では、典型的なMoMaタスクのポリシーを学習するための新しいフレームワークであるCausal MoMaを紹介する。Causal MoMaは、各サブオブジェクトに対処するためにロボットの行動空間の最も好ましい部分空間を利用する。Causal MoMaは、行動と報酬関数の項間の因果的依存関係を自動的に発見し、これらの依存関係を利用する因果的な政策学習手順により、従来の最先端の政策勾配アルゴリズムと比較して勾配の分散を低減し、収束と結果を改善する。我々は、異なるMoMaタスクにわたる3種類のシミュレーションロボットでCausal MoMaの性能を評価し、シミュレーションで学習されたポリシーを実際のロボットに直接転送することに成功したことを実証する。詳細はhttps://sites.google.com/view/causal-moma。

要約(オリジナル)

Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. base actions for locomotion objectives and arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot’s action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies in a causal policy learning procedure that reduces gradient variance compared to previous state-of-the-art policy gradient algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma.

arxiv情報

著者 Jiaheng Hu,Peter Stone,Roberto Martín-Martín
発行日 2023-09-01 15:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク