要約
強化学習 (RL) は、環境との相互作用のみから複雑なスキルを獲得することに大きな成功を収めていますが、各エピソードの終了時に初期状態へのリセットがすぐに利用できることを前提としています。
このような仮定は、物理世界でリセットするための時間がかかり面倒な回避策であるため、身体化されたエージェントの自律的な学習を妨げます。
したがって、非エピソード的な相互作用から学習できる自律的 RL (ARL) 手法への関心が高まっています。
ただし、ARL に関する既存の研究は、以前のデータへの依存によって制限があり、タスク関連のインタラクションがまばらな環境では学習できません。
対照的に、私たちは暗黙的双方向カリキュラム (IBC) を介したデモンストレーション不要の ARL アルゴリズムを提案します。
学習の進行状況に応じて条件付きでアクティブ化される補助エージェントと、最適な移動に基づく双方向の目標カリキュラムにより、私たちの方法は、デモンストレーションを活用した方法であっても、以前の方法よりも優れています。
要約(オリジナル)
While reinforcement learning (RL) has achieved great success in acquiring complex skills solely from environmental interactions, it assumes that resets to the initial state are readily available at the end of each episode. Such an assumption hinders the autonomous learning of embodied agents due to the time-consuming and cumbersome workarounds for resetting in the physical world. Hence, there has been a growing interest in autonomous RL (ARL) methods that are capable of learning from non-episodic interactions. However, existing works on ARL are limited by their reliance on prior data and are unable to learn in environments where task-relevant interactions are sparse. In contrast, we propose a demonstration-free ARL algorithm via Implicit and Bi-directional Curriculum (IBC). With an auxiliary agent that is conditionally activated upon learning progress and a bidirectional goal curriculum based on optimal transport, our method outperforms previous methods, even the ones that leverage demonstrations.
arxiv情報
著者 | Jigang Kim,Daesol Cho,H. Jin Kim |
発行日 | 2023-06-09 01:36:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google