要約
多くの環境で動作できる一般的なロボット エージェントを構築するには、多くの場合、ロボットが現実世界で経験を収集することが不可欠です。
ただし、これは、安全性、時間、およびハードウェアの制限により、実行できないことがよくあります。
したがって、実世界の経験として次善のものを活用することを提案します。それは、人間が手を使っているインターネットビデオです。
視覚的特徴などの視覚的事前分布はビデオから学習されることが多いですが、ビデオからのより多くの情報がより強力な事前分布として利用できると考えています。
私たちは、人間のビデオ データセットからの視覚的、行動的、および物理的な事前情報を活用してロボットの行動をガイドする学習アルゴリズム、VideoDex を構築します。
これらのアクションとニューラル ネットワーク内の物理的な優先順位によって、特定のロボット タスクに対する典型的な人間の行動が決まります。
ロボットアームと器用なハンドベースのシステムでアプローチをテストし、さまざまな操作タスクで強力な結果を示し、さまざまな最先端の方法よりも優れています。
https://video-dex.github.io のビデオ
要約(オリジナル)
To build general robotic agents that can operate in many environments, it is often imperative for the robot to collect experience in the real world. However, this is often not feasible due to safety, time, and hardware restrictions. We thus propose leveraging the next best thing as real-world experience: internet videos of humans using their hands. Visual priors, such as visual features, are often learned from videos, but we believe that more information from videos can be utilized as a stronger prior. We build a learning algorithm, VideoDex, that leverages visual, action, and physical priors from human video datasets to guide robot behavior. These actions and physical priors in the neural network dictate the typical human behavior for a particular robot task. We test our approach on a robot arm and dexterous hand-based system and show strong results on various manipulation tasks, outperforming various state-of-the-art methods. Videos at https://video-dex.github.io
arxiv情報
著者 | Kenneth Shaw,Shikhar Bahl,Deepak Pathak |
発行日 | 2022-12-08 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google