Causal Policy Gradient for Whole-Body Mobile Manipulation

要約

次世代の家庭用ロボットヘルパーの開発には、移動機能とインタラクション機能を組み合わせる必要があり、これは一般にモバイル操作 (MoMa) と呼ばれます。
MoMa のタスクは、ロボットの広い動作スペースと、障害物を回避しながら効率的に目標に到達するなど、タスクの一般的な多目的の性質により困難です。
現在のアプローチでは、アクション空間の一部を MoMa のサブ目標に手動で照合することで、操作を行わないナビゲーションと移動を行わない静止操作にタスクを分離することがよくあります (例: 移動目標の基本動作の学習と操作の腕動作の学習)。
このソリューションは、移動とインタラクションの自由度の同時組み合わせを防ぎ、アクション空間の分割とアクション部分の副目的へのマッチングの両方について人間の領域知識を必要とします。
この論文では、ロボットの動作空間の最も有利な部分空間を利用して各部分目標に対処する、典型的な MoMa タスクのポリシーをトレーニングするための新しい強化学習フレームワークである Causal MoMa を紹介します。
Causal MoMa は、アクションと報酬関数の項の間の因果関係を自動的に検出し、因果ポリシー勾配を通じてこれらの依存関係を利用し、以前の最先端の強化学習アルゴリズムと比較して勾配の分散を低減し、収束と結果を向上させます。
私たちは、さまざまな MoMa タスクにわたる 3 種類のシミュレートされたロボットで Causal MoMa のパフォーマンスを評価し、シミュレーションでトレーニングされたポリシーを実際のロボットに直接転送することに成功したことを実証しました。そこでは、エージェントが移動する目標を追跡し、動的障害物に反応すると同時に、
ベース、アーム、ヘッドの全身を相乗的にコントロールします。
詳細については、https://sites.google.com/view/causal-moma をご覧ください。

要約(オリジナル)

Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. learning base actions for locomotion objectives and learning arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new reinforcement learning framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot’s action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies through causal policy gradient that reduces gradient variance compared to previous state-of-the-art reinforcement learning algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma.

arxiv情報

著者 Jiaheng Hu,Peter Stone,Roberto Martín-Martín
発行日 2023-09-28 16:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク