要約
強化学習(RL)では、値関数をトレーニングして、単一のアクションを実行することの長期的な結果を理解します。
ただし、ロボットの動きは通常、複数の小さなアクションを実行することの集計結果であるため、各アクションを実行することの価値はロボット工学では曖昧になる可能性があります。
さらに、ロボットトレーニングデータは、多くの場合、騒々しい軌跡で構成されており、各アクションは騒々しいですが、一連のアクションを実行すると意味のあるロボットムーブメントが生じます。
これにより、値関数が個々のアクションの効果を理解することが困難になります。
これに対処するために、アクションシーケンス(CQN-AS)を使用して、粗からファインのQネットワークを紹介します。これは、一連のアクション、つまり明示的にトレーニングするq値を出力する批評家ネットワークを学習する新しいバリューベースのRLアルゴリズムを学習します。
アクションシーケンスを実行した結果を学習する値関数。
Bigym、Humanoidbench、およびRLBenchのデモンストレーションと同様に、まばらで密な報酬を備えた53のロボットタスクに関するアルゴリズムを研究します。
CQN-Asは、特にヒューマノイド制御タスクでさまざまなベースラインよりも優れていることがわかります。
要約(オリジナル)
In reinforcement learning (RL), we train a value function to understand the long-term consequence of executing a single action. However, the value of taking each action can be ambiguous in robotics as robot movements are typically the aggregate result of executing multiple small actions. Moreover, robotic training data often consists of noisy trajectories, in which each action is noisy but executing a series of actions results in a meaningful robot movement. This further makes it difficult for the value function to understand the effect of individual actions. To address this, we introduce Coarse-to-fine Q-Network with Action Sequence (CQN-AS), a novel value-based RL algorithm that learns a critic network that outputs Q-values over a sequence of actions, i.e., explicitly training the value function to learn the consequence of executing action sequences. We study our algorithm on 53 robotic tasks with sparse and dense rewards, as well as with and without demonstrations, from BiGym, HumanoidBench, and RLBench. We find that CQN-AS outperforms various baselines, in particular on humanoid control tasks.
arxiv情報
著者 | Younggyo Seo,Pieter Abbeel |
発行日 | 2025-01-29 18:56:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google