Autonomous Robotic Reinforcement Learning with Asynchronous Human Feedback

要約

理想的には、ロボットを現実世界の環境に配置し、自律的により多くの経験を収集することで自律的に改善していくことができます。
しかし、自律的なロボット学習のアルゴリズムを現実世界で実現するのは困難でした。
これはサンプルの複雑さの課題に起因することが多いですが、サンプル効率の良い手法であっても、2 つの大きな課題、つまり、適切に「形付けされた」報酬を提供することの難しさと、リセットなしで継続的なトレーニングを行うことの難しさによって妨げられています。
この研究では、報酬関数やリセットメカニズムを手動で設計するという骨の折れる努力を必要とせずに、エージェントが現実世界で直接トレーニングすることで継続的な改善を示すことができる、現実世界の強化学習のシステムについて説明します。
当社のシステムは、リモート ユーザーからの時折の非専門家による人間参加型フィードバックを活用して、有益な距離関数を学習して探索をガイドすると同時に、目標指向のポリシー学習のためのシンプルな自己教師あり学習アルゴリズムを活用します。
リセットがない場合、宇宙のどの領域を探索するかを決定する際に、探索ポリシーの現在の「到達可能性」を考慮することが特に重要であることを示します。
この洞察に基づいて、私たちは実践的な学習システムである GEAR をインスタンス化します。これにより、ロボットを現実世界の環境に置くだけで、中断することなく自律的に訓練できるようになります。
このシステムは、ロボットのエクスペリエンスを Web インターフェイスにストリーミングします。必要なのは、リモートのクラウドソースの非専門家人間からのバイナリ比較フィードバックの形式での非同期フィードバックだけです。
このシステムを一連のロボット タスクでシミュレーションで評価し、シミュレーションと現実世界の両方での学習行動におけるその有効性を実証します。
プロジェクトの Web サイト https://guided-exploration-autonomous-rl.github.io/GEAR/。

要約(オリジナル)

Ideally, we would place a robot in a real-world environment and leave it there improving on its own by gathering more experience autonomously. However, algorithms for autonomous robotic learning have been challenging to realize in the real world. While this has often been attributed to the challenge of sample complexity, even sample-efficient techniques are hampered by two major challenges – the difficulty of providing well ‘shaped’ rewards, and the difficulty of continual reset-free training. In this work, we describe a system for real-world reinforcement learning that enables agents to show continual improvement by training directly in the real world without requiring painstaking effort to hand-design reward functions or reset mechanisms. Our system leverages occasional non-expert human-in-the-loop feedback from remote users to learn informative distance functions to guide exploration while leveraging a simple self-supervised learning algorithm for goal-directed policy learning. We show that in the absence of resets, it is particularly important to account for the current ‘reachability’ of the exploration policy when deciding which regions of the space to explore. Based on this insight, we instantiate a practical learning system – GEAR, which enables robots to simply be placed in real-world environments and left to train autonomously without interruption. The system streams robot experience to a web interface only requiring occasional asynchronous feedback from remote, crowdsourced, non-expert humans in the form of binary comparative feedback. We evaluate this system on a suite of robotic tasks in simulation and demonstrate its effectiveness at learning behaviors both in simulation and the real world. Project website https://guided-exploration-autonomous-rl.github.io/GEAR/.

arxiv情報

著者 Max Balsells,Marcel Torne,Zihan Wang,Samedh Desai,Pulkit Agrawal,Abhishek Gupta
発行日 2023-10-31 16:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク