要約
オフラインからオンラインの強化学習(O2O RL)は、環境と相互作用する際に継続的に改善するポリシーを取得することを目的としています。
この満足のいく行動は、壊滅的な障害と時間のためにランダム探査がコストがかかる可能性があるロボット操作に必要です。
O2O RLは、行動のクローニング(BC)が分布シフトに苦しむことが知られているシナリオ$ \ unicode {x2014} $の希少な量の(潜在的に準最適な)デモのみを取得できる場合、特に説得力があります。
以前の作品は、画像ベースの環境でO2O RLアルゴリズムを適用する際の課題を概説しています。
この作業では、BCが過半数の時間に失敗する少数のデモを使用して、実際の画像ベースのロボット真空をつかむタスクで学習できる新しいO2O RLアルゴリズムを提案します。
提案されたアルゴリズムは、ポリック外のアクタークリティックアルゴリズムのターゲットネットワークを、神経接線カーネルに触発された正規化手法に置き換えます。
提案されたアルゴリズムは、2時間の相互作用時間未満で90 \%を超える成功率に達することができることを実証しますが、BCと既存の一般的に使用されるRLアルゴリズムは同様のパフォーマンスを達成できない一方で、人間のデモは50人です。
要約(オリジナル)
Offline-to-online reinforcement learning (O2O RL) aims to obtain a continually improving policy as it interacts with the environment, while ensuring the initial policy behaviour is satisficing. This satisficing behaviour is necessary for robotic manipulation where random exploration can be costly due to catastrophic failures and time. O2O RL is especially compelling when we can only obtain a scarce amount of (potentially suboptimal) demonstrations$\unicode{x2014}$a scenario where behavioural cloning (BC) is known to suffer from distribution shift. Previous works have outlined the challenges in applying O2O RL algorithms under the image-based environments. In this work, we propose a novel O2O RL algorithm that can learn in a real-life image-based robotic vacuum grasping task with a small number of demonstrations where BC fails majority of the time. The proposed algorithm replaces the target network in off-policy actor-critic algorithms with a regularization technique inspired by neural tangent kernel. We demonstrate that the proposed algorithm can reach above 90\% success rate in under two hours of interaction time, with only 50 human demonstrations, while BC and existing commonly-used RL algorithms fail to achieve similar performance.
arxiv情報
著者 | Bryan Chan,Anson Leung,James Bergstra |
発行日 | 2025-01-22 22:15:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google