要約
一連のアクションを予測することは、ロボット工学における最近の動作クローニングアルゴリズムの成功において重要でした。
同様のアイデアが強化学習(RL)を改善できますか?
グラウンドトゥルースの復帰を予測するときにアクションシーケンスを組み込むと、検証損失が低下することを観察することにより、肯定的に答えます。
これにより動機付けられているため、アクションシーケンス(CQN-AS)を使用して粗からファインのQネットワークを導入します。これは、アクションシーケンスの結果を学習するために価値関数を明示的にトレーニングするQ値を出力する批評家ネットワークを学習する新しい価値ベースのRLアルゴリズムです。
私たちの実験は、CQN-ASが、BigyMとRLBenchのさまざまなスパースリワードヒューマノイドコントロールと卓上操作タスクのいくつかのベースラインを上回ることを示しています。
要約(オリジナル)
Predicting a sequence of actions has been crucial in the success of recent behavior cloning algorithms in robotics. Can similar ideas improve reinforcement learning (RL)? We answer affirmatively by observing that incorporating action sequences when predicting ground-truth return-to-go leads to lower validation loss. Motivated by this, we introduce Coarse-to-fine Q-Network with Action Sequence (CQN-AS), a novel value-based RL algorithm that learns a critic network that outputs Q-values over a sequence of actions, i.e., explicitly training the value function to learn the consequence of executing action sequences. Our experiments show that CQN-AS outperforms several baselines on a variety of sparse-reward humanoid control and tabletop manipulation tasks from BiGym and RLBench.
arxiv情報
著者 | Younggyo Seo,Pieter Abbeel |
発行日 | 2025-05-28 01:11:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google