要約
コンピューティング能力の急速な成長とディープラーニングの最近の進歩により、私たちは研究現場で新しいロボット機能の印象的なデモンストレーションを目撃してきました。
それにもかかわらず、これらの学習システムは一般化が脆弱であり、実際のタスクには過剰なトレーニング データが必要です。
最先端のロボット学習モデルの不完全性を受け入れながらその機能を活用するために、人間とロボットが役割分担を通じて協力するための原則的なフレームワークである Sirius を紹介します。
このフレームワークでは、部分的に自律したロボットが意思決定の大部分を処理し、確実に動作します。
その間、人間のオペレーターがプロセスを監視し、困難な状況に介入します。
このような人間とロボットのチームにより、複雑なタスクの安全な展開が保証されます。
さらに、タスクの実行から収集されたデータに対するポリシーのパフォーマンスを向上させるための新しい学習アルゴリズムを導入します。
中心的なアイデアは、人間の信頼を近似してトレーニング サンプルを再評価し、重み付けされた行動クローニングによってポリシーを最適化することです。
私たちはシミュレーションと実際のハードウェアで Sirius を評価し、接触の多い操作タスクのコレクションに対して Sirius が一貫してベースラインを上回り、最先端の手法と比較してシミュレーションで 8%、実際のハードウェアで 27% の向上を達成していることを示しました。
ポリシーの成功率が向上し、コンバージェンスが 2 倍速くなり、メモリ サイズが 85% 削減されました。
ビデオと詳細は https://ut-austin-rpl.github.io/sirius/ でご覧いただけます。
要約(オリジナル)
With the rapid growth of computing powers and recent advances in deep learning, we have witnessed impressive demonstrations of novel robot capabilities in research settings. Nonetheless, these learning systems exhibit brittle generalization and require excessive training data for practical tasks. To harness the capabilities of state-of-the-art robot learning models while embracing their imperfections, we present Sirius, a principled framework for humans and robots to collaborate through a division of work. In this framework, partially autonomous robots are tasked with handling a major portion of decision-making where they work reliably; meanwhile, human operators monitor the process and intervene in challenging situations. Such a human-robot team ensures safe deployments in complex tasks. Further, we introduce a new learning algorithm to improve the policy’s performance on the data collected from the task executions. The core idea is re-weighing training samples with approximated human trust and optimizing the policies with weighted behavioral cloning. We evaluate Sirius in simulation and on real hardware, showing that Sirius consistently outperforms baselines over a collection of contact-rich manipulation tasks, achieving an 8% boost in simulation and 27% on real hardware than the state-of-the-art methods in policy success rate, with twice faster convergence and 85% memory size reduction. Videos and more details are available at https://ut-austin-rpl.github.io/sirius/
arxiv情報
著者 | Huihan Liu,Soroush Nasiriany,Lance Zhang,Zhiyao Bao,Yuke Zhu |
発行日 | 2023-07-04 00:03:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google