要約
強化学習では、探索と活用の間のトレードオフにより、限られたサンプルから効率的な学習を達成するために複雑な課題が生じます。
最近の取り組みは、ポリシー更新に過去の経験を活用する点では効果的ですが、データ収集に過去の経験を再利用できる可能性を見落としていることがよくあります。
基礎となる RL アルゴリズムとは独立して、対照的初期状態バッファーの概念を導入します。これは、過去の経験から戦略的に状態を選択し、それらを使用して環境内のエージェントを初期化し、エージェントをより有益な状態に誘導します。
私たちは、環境に関する事前情報に依存することなく、2 つの複雑なロボット タスクに対するアプローチを検証します。(i) 困難な地形を横断する四足ロボットの移動と、(ii) トラックをレースするクアッドコプター ドローンです。
実験結果は、初期状態バッファーが名目ベースラインよりも高いタスク パフォーマンスを達成しながら、トレーニングの収束も高速化することを示しています。
要約(オリジナル)
In Reinforcement Learning, the trade-off between exploration and exploitation poses a complex challenge for achieving efficient learning from limited samples. While recent works have been effective in leveraging past experiences for policy updates, they often overlook the potential of reusing past experiences for data collection. Independent of the underlying RL algorithm, we introduce the concept of a Contrastive Initial State Buffer, which strategically selects states from past experiences and uses them to initialize the agent in the environment in order to guide it toward more informative states. We validate our approach on two complex robotic tasks without relying on any prior information about the environment: (i) locomotion of a quadruped robot traversing challenging terrains and (ii) a quadcopter drone racing through a track. The experimental results show that our initial state buffer achieves higher task performance than the nominal baseline while also speeding up training convergence.
arxiv情報
著者 | Nico Messikommer,Yunlong Song,Davide Scaramuzza |
発行日 | 2023-09-20 13:52:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google