要約
私たちは、現実世界での複雑で一般的な行動を直接学習するという問題に取り組みます。
私たちは、さまざまな設定から得た現実世界のインタラクション軌跡をほんの一握りだけ使用して、ロボットが操作スキルを効率的に学習するためのアプローチを提案します。
コンピューター ビジョンと自然言語の分野における大規模なデータセットからの学習の成功に触発された私たちの信念は、効率的に学習するためには、ロボットがインターネット スケールの人間のビデオ データを活用できなければならないということです。
人間は多くの興味深い方法で世界と対話しており、これによりロボットは有用なアクションとアフォーダンスについての理解を構築できるだけでなく、これらのアクションが操作のために世界にどのような影響を与えるかについても理解できるようになります。
私たちのアプローチは、人間のビデオから学んだ視覚的アフォーダンスに基づいた、構造化された人間中心のアクション空間を構築します。
さらに、人間のビデオでワールド モデルをトレーニングし、タスクの監視なしで少量のロボット インタラクション データを微調整します。
私たちは、このアフォーダンス空間世界モデルのアプローチにより、さまざまなロボットが複雑な設定で 30 分以内の対話でさまざまな操作スキルを学習できることを示します。
ビデオは https://human-world-model.github.io でご覧いただけます。
要約(オリジナル)
We tackle the problem of learning complex, general behaviors directly in the real world. We propose an approach for robots to efficiently learn manipulation skills using only a handful of real-world interaction trajectories from many different settings. Inspired by the success of learning from large-scale datasets in the fields of computer vision and natural language, our belief is that in order to efficiently learn, a robot must be able to leverage internet-scale, human video data. Humans interact with the world in many interesting ways, which can allow a robot to not only build an understanding of useful actions and affordances but also how these actions affect the world for manipulation. Our approach builds a structured, human-centric action space grounded in visual affordances learned from human videos. Further, we train a world model on human videos and fine-tune on a small amount of robot interaction data without any task supervision. We show that this approach of affordance-space world models enables different robots to learn various manipulation skills in complex settings, in under 30 minutes of interaction. Videos can be found at https://human-world-model.github.io
arxiv情報
著者 | Russell Mendonca,Shikhar Bahl,Deepak Pathak |
発行日 | 2023-08-21 17:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google