Learning by Watching: A Review of Video-based Learning Approaches for Robot Manipulation

要約

ロボットによる操作スキルの学習は、多様で偏りのないデータセットの不足によって妨げられています。
厳選されたデータセットは役に立ちますが、一般化性と現実世界への転送には課題が残っています。
一方、大規模な「野生の」ビデオ データセットは、自己監視型技術を通じてコン​​ピューター ビジョンの進歩を推進してきました。
これをロボット工学に置き換えると、最近の研究では、オンラインで入手できる豊富なビデオを受動的に視聴することで操作スキルを学習することが検討されています。
このようなビデオベースの学習パラダイムは、データセットの偏りを軽減しながら、スケーラブルな監視を提供し、有望な結果を示しています。
この調査では、ビデオ特徴表現学習技術、オブジェクト アフォーダンス理解、3D 手/身体モデリング、大規模ロボット リソースなどの基礎と、制御されていないビデオ デモンストレーションからロボット操作スキルを取得するための新しい技術をレビューします。
大規模な人間のビデオを観察することのみから学習することで、ロボット操作の一般化とサンプル効率がどのように向上するかについて説明します。
この調査では、ビデオベースの学習アプローチを要約し、標準的なデータセット、調査指標、ベンチマークと比較したその利点を分析し、コンピュータービジョン、自然言語処理、ロボット学習が交わるこの初期の領域における未解決の課題と将来の方向性について議論しています。

要約(オリジナル)

Robot learning of manipulation skills is hindered by the scarcity of diverse, unbiased datasets. While curated datasets can help, challenges remain in generalizability and real-world transfer. Meanwhile, large-scale ‘in-the-wild’ video datasets have driven progress in computer vision through self-supervised techniques. Translating this to robotics, recent works have explored learning manipulation skills by passively watching abundant videos sourced online. Showing promising results, such video-based learning paradigms provide scalable supervision while reducing dataset bias. This survey reviews foundations such as video feature representation learning techniques, object affordance understanding, 3D hand/body modeling, and large-scale robot resources, as well as emerging techniques for acquiring robot manipulation skills from uncontrolled video demonstrations. We discuss how learning only from observing large-scale human videos can enhance generalization and sample efficiency for robotic manipulation. The survey summarizes video-based learning approaches, analyses their benefits over standard datasets, survey metrics, and benchmarks, and discusses open challenges and future directions in this nascent domain at the intersection of computer vision, natural language processing, and robot learning.

arxiv情報

著者 Chrisantus Eze,Christopher Crick
発行日 2024-02-11 08:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク