Affordances from Human Videos as a Versatile Representation for Robotics

要約

タイトル:ロボティクスのための人間の動画からのアフォーダンス

要約:
– 人間を観察して相互作用することを学習するロボットを作成することは、いくつかのビジョン問題を解決するために着想を与えた。
– しかしながら、静的なデータセットに対していくつかの成功事例があるにもかかわらず、現在のモデルをロボットに直接使用する方法はまだ不明確である。
– 本論文では、人間の相互作用のビデオを環境中心的な方法で活用して、このギャップを埋めることを目的としています。
– 人間の行動のビデオを利用して、視覚アフォーダンスモデルをトレーニングし、人間がどこでどのように相互作用する可能性があるかを推定します。
– これらの行動アフォーダンスの構造は、ロボットが多くの複雑なタスクを実行するのに直接的に貢献します。
– 我々は、私たちのアフォーダンスモデルをオフラインの模倣学習、探索、ゴール条件付き学習、および強化学習のための行動パラメータ化を含む4つのロボット学習パラダイムにシームレスに統合する方法を示します。
– 我々はVRBと呼ぶこのアプローチの効果を、4つの現実世界の環境、10以上のさまざまなタスク、および野生で作動する2つのロボットプラットフォームで示します。
– 結果、視覚化、およびビデオはhttps://robo-affordances.github.io/で公開されています。

要約(オリジナル)

Building a robot that can understand and learn to interact by watching humans has inspired several vision problems. However, despite some successful results on static datasets, it remains unclear how current models can be used on a robot directly. In this paper, we aim to bridge this gap by leveraging videos of human interactions in an environment centric manner. Utilizing internet videos of human behavior, we train a visual affordance model that estimates where and how in the scene a human is likely to interact. The structure of these behavioral affordances directly enables the robot to perform many complex tasks. We show how to seamlessly integrate our affordance model with four robot learning paradigms including offline imitation learning, exploration, goal-conditioned learning, and action parameterization for reinforcement learning. We show the efficacy of our approach, which we call VRB, across 4 real world environments, over 10 different tasks, and 2 robotic platforms operating in the wild. Results, visualizations and videos at https://robo-affordances.github.io/

arxiv情報

著者 Shikhar Bahl,Russell Mendonca,Lili Chen,Unnat Jain,Deepak Pathak
発行日 2023-04-17 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, cs.RO パーマリンク