要約
強化学習(RL)では、1つの行動を実行することの長期的な結果を理解するために価値関数を学習する。しかし、ロボット工学では、ロボットの動きは通常、複数の小さなアクションを実行した結果の集合体であるため、各アクションを実行することの価値が曖昧になる可能性がある。さらに、ロボットの学習データはノイズの多い軌跡で構成されることが多く、各アクションはノイズが多いが、一連のアクションを実行することで意味のあるロボットの動きになる。このため、価値関数が個々のアクションの効果を理解することはさらに困難となる。この問題に対処するために、我々は、一連の行動に対してQ値を出力する評論家ネットワークを学習する、すなわち、行動シーケンスを実行した結果を学習するために価値関数を明示的に学習する、新しい価値ベースのRLアルゴリズムであるCoarse-to-fine Q-Network with Action Sequence (CQN-AS)を導入する。我々は、BiGym、HumanoidBench、RLBenchから、報酬がまばらなものと密なもの、またデモの有無に関わらず53のロボットタスクについて我々のアルゴリズムを研究した。その結果、CQN-ASは、特にヒューマノイド制御タスクにおいて、様々なベースラインを凌駕することがわかった。
要約(オリジナル)
In reinforcement learning (RL), we train a value function to understand the long-term consequence of executing a single action. However, the value of taking each action can be ambiguous in robotics as robot movements are typically the aggregate result of executing multiple small actions. Moreover, robotic training data often consists of noisy trajectories, in which each action is noisy but executing a series of actions results in a meaningful robot movement. This further makes it difficult for the value function to understand the effect of individual actions. To address this, we introduce Coarse-to-fine Q-Network with Action Sequence (CQN-AS), a novel value-based RL algorithm that learns a critic network that outputs Q-values over a sequence of actions, i.e., explicitly training the value function to learn the consequence of executing action sequences. We study our algorithm on 53 robotic tasks with sparse and dense rewards, as well as with and without demonstrations, from BiGym, HumanoidBench, and RLBench. We find that CQN-AS outperforms various baselines, in particular on humanoid control tasks.
arxiv情報
著者 | Younggyo Seo,Pieter Abbeel |
発行日 | 2025-02-01 04:09:07+00:00 |
arxivサイト | arxiv_id(pdf) |