Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning

要約

ロボット タスクで強化学習 (RL) エージェントをトレーニングするには、通常、大量のトレーニング サンプルが必要です。
これは、探索や人間が収集したデモンストレーションから得られたものであっても、トレーニング データはノイズの多い軌跡で構成されていることが多く、各アクションを実行した場合の効果を理解する価値関数を学習することが困難になるためです。
一方、最近の行動クローニング (BC) アプローチでは、一連のアクションを予測することで、政策が専門家のデモンストレーションのノイズの多いマルチモーダルな分布を効果的に近似できることが示されています。
ロボットタスクの RL を改善するために同様のアイデアを使用できますか?
この論文では、一連のアクションにわたって Q 値を出力するクリティカル ネットワークを学習する新しい RL アルゴリズムを紹介します。
現在および将来の一連のアクションの実行結果を学習するために値関数を明示的にトレーニングすることにより、私たちのアルゴリズムはノイズの多い軌跡から有用な値関数を学習できるようになります。
私たちは、BiGym、HumanoidBench、および RLBench によるモバイル両手操作タスク、全身制御タスク、および卓上操作タスクにわたる、デモンストレーションの有無にかかわらず、疎な報酬と密な報酬を備えたさまざまな設定にわたってアルゴリズムを研究します。
アクション シーケンスを使用してクリティカル ネットワークを学習することにより、特に困難なヒューマノイド制御タスクにおいて、アルゴリズムがさまざまな RL および BC ベースラインよりも優れたパフォーマンスを発揮することがわかりました。

要約(オリジナル)

Training reinforcement learning (RL) agents on robotic tasks typically requires a large number of training samples. This is because training data often consists of noisy trajectories, whether from exploration or human-collected demonstrations, making it difficult to learn value functions that understand the effect of taking each action. On the other hand, recent behavior-cloning (BC) approaches have shown that predicting a sequence of actions enables policies to effectively approximate noisy, multi-modal distributions of expert demonstrations. Can we use a similar idea for improving RL on robotic tasks? In this paper, we introduce a novel RL algorithm that learns a critic network that outputs Q-values over a sequence of actions. By explicitly training the value functions to learn the consequence of executing a series of current and future actions, our algorithm allows for learning useful value functions from noisy trajectories. We study our algorithm across various setups with sparse and dense rewards, and with or without demonstrations, spanning mobile bi-manual manipulation, whole-body control, and tabletop manipulation tasks from BiGym, HumanoidBench, and RLBench. We find that, by learning the critic network with action sequences, our algorithm outperforms various RL and BC baselines, in particular on challenging humanoid control tasks.

arxiv情報

著者 Younggyo Seo,Pieter Abbeel
発行日 2024-11-19 01:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク