要約
計測機器のない現実世界の環境で動作することを目指すロボット システムは、オンボード センシングによって世界を直接認識する必要があります。
視覚ベースの学習システムは、生のピクセルに基づいて世界の暗黙的な理解を構築することで、環境計測の必要性を排除することを目指していますが、まばらな視覚報酬信号のみから接触が豊富な高次元の探索空間をナビゲートすることは、探索の課題を大幅に悪化させます。
したがって、このようなシステムの適用可能性は、通常、シミュレートされた環境または高度に設計された環境に限定されます。これは、明示的な状態推定と高密度の報酬のガイダンスなしで現実世界でエージェントを探索すると、危険な動作や壊滅的な安全性の欠陥が発生する可能性があるためです。
この研究では、これらの制限の背後にある根本原因を分離して、計測機器のない現実世界で直接接触リッチな操作を学習できる MoDem-V2 と呼ばれるシステムを開発しました。
モデルベース強化学習 (MBRL)、デモ ブートストラッピング、効果的な探索における最新のアルゴリズムの進歩に基づいて構築された MoDem-V2 は、現実世界で直接、接触を多用した器用な操作スキルを習得できます。
私たちは、探索の中心化、機関の引き継ぎ、アクターと批評家のアンサンブルなど、実際の安全性の考慮事項を尊重しながら、モデル学習でデモンストレーションを活用するための重要な要素を特定します。
我々は、シミュレーションと現実世界の両方における 4 つの複雑な視覚運動操作問題におけるこれらの成分の寄与を経験的に実証します。
私たちの知る限り、私たちの研究は、現実世界で直接トレーニングされたデモンストレーション拡張ビジュアル MBRL の最初の成功したシステムを示しています。
ビデオと詳細については、https://sites.google.com/view/modem-v2 にアクセスしてください。
要約(オリジナル)
Robotic systems that aspire to operate in uninstrumented real-world environments must perceive the world directly via onboard sensing. Vision-based learning systems aim to eliminate the need for environment instrumentation by building an implicit understanding of the world based on raw pixels, but navigating the contact-rich high-dimensional search space from solely sparse visual reward signals significantly exacerbates the challenge of exploration. The applicability of such systems is thus typically restricted to simulated or heavily engineered environments since agent exploration in the real-world without the guidance of explicit state estimation and dense rewards can lead to unsafe behavior and safety faults that are catastrophic. In this study, we isolate the root causes behind these limitations to develop a system, called MoDem-V2, capable of learning contact-rich manipulation directly in the uninstrumented real world. Building on the latest algorithmic advancements in model-based reinforcement learning (MBRL), demo-bootstrapping, and effective exploration, MoDem-V2 can acquire contact-rich dexterous manipulation skills directly in the real world. We identify key ingredients for leveraging demonstrations in model learning while respecting real-world safety considerations — exploration centering, agency handover, and actor-critic ensembles. We empirically demonstrate the contribution of these ingredients in four complex visuo-motor manipulation problems in both simulation and the real world. To the best of our knowledge, our work presents the first successful system for demonstration-augmented visual MBRL trained directly in the real world. Visit https://sites.google.com/view/modem-v2 for videos and more details.
arxiv情報
著者 | Patrick Lancaster,Nicklas Hansen,Aravind Rajeswaran,Vikash Kumar |
発行日 | 2023-09-25 15:51:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google