要約
オフラインの目標条件付き強化学習 (GCRL) は、特定のデータセットへのオーバーフィッティングが原因で困難になる可能性があります。
与えられたデータセットの外でエージェントのスキルを一般化するために、追加の軌道を生成する目標交換手順を提案します。
ノイズと外挿エラーの問題を軽減するために、決定論的 Q アドバンテージ ポリシー勾配 (DQAPG) と呼ばれる一般的なオフライン強化学習法を提示します。
実験では、DQAPG はさまざまなベンチマーク タスクで最先端のゴール条件付きオフライン RL メソッドよりも優れており、ゴール スワッピングはテスト結果をさらに改善します。
提案された方法が、以前の方法が失敗した挑戦的な器用な手の操作タスクで良好なパフォーマンスを得ることは注目に値します。
要約(オリジナル)
Offline goal-conditioned reinforcement learning (GCRL) can be challenging due to overfitting to the given dataset. To generalize agents’ skills outside the given dataset, we propose a goal-swapping procedure that generates additional trajectories. To alleviate the problem of noise and extrapolation errors, we present a general offline reinforcement learning method called deterministic Q-advantage policy gradient (DQAPG). In the experiments, DQAPG outperforms state-of-the-art goal-conditioned offline RL methods in a wide range of benchmark tasks, and goal-swapping further improves the test results. It is noteworthy, that the proposed method obtains good performance on the challenging dexterous in-hand manipulation tasks for which the prior methods failed.
arxiv情報
著者 | Wenyan Yang,Huiling Wang,Dingding Cai,Joni Pajarinen,Joni-Kristen Kämäräinen |
発行日 | 2023-02-17 13:22:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google