Towards Generalist Robot Learning from Internet Video: A Survey

要約

ディープ ラーニングをインターネットから収集した巨大なデータセットに拡張することで、自然言語処理と視覚的な理解と生成において驚くほど汎用的な機能が得られました。
対照的に、ロボット工学ではデータが不足しており、収集には費用がかかります。
このため、ロボット学習は、他の領域で観察される機能の汎用性に匹敵するのに苦労しています。
Learning from Video (LfV) 手法は、従来のロボット データをインターネットから収集した大規模なビデオ データセットで強化することで、このデータ ボトルネックに対処しようとします。
このようなビデオ データは、物理的な動作や世界の物理学に関する基礎的な情報をモデルに提供する可能性があります。
これは、ロボットの汎用性を向上させる上で大いに期待できます。
この調査では、LfV の新興分野の概要を紹介します。
LfV の利点と課題を含む基本的な概念を概説します。
私たちは、大規模なインターネット ビデオから知識を抽出するための現在の方法の包括的なレビューを提供します。
LfV の主要な課題に取り組む。
ビデオデータの使用により、下流の強化とロボット学習を促進します。
LfV データセットとベンチマークもレビューされます。
この調査は、課題と機会についての批判的な議論で終わります。
ここでは、ロボットのポリシーとダイナミクス モデルの学習を支援するために、利用可能なインターネット ビデオの全範囲を活用できる、スケーラブルな基盤モデルのアプローチを提唱します。
この調査がさらなる LfV 研究に情報を提供し、促進し、汎用ロボットの開発に向けた進歩を促進することを願っています。

要約(オリジナル)

Scaling deep learning to huge internet-scraped datasets has yielded remarkably general capabilities in natural language processing and visual understanding and generation. In contrast, data is scarce and expensive to collect in robotics. This has seen robot learning struggle to match the generality of capabilities observed in other domains. Learning from Videos (LfV) methods seek to address this data bottleneck by augmenting traditional robot data with large internet-scraped video datasets. Such video data may provide the model with foundational information regarding physical behaviours and the physics of the world. This holds great promise for improving the generality of our robots. In this survey, we present an overview of the emerging field of LfV. We outline fundamental concepts, including the benefits and challenges of LfV. We provide a comprehensive review of current methods for: extracting knowledge from large-scale internet video; tackling key LfV challenges; and boosting downstream reinforcement and robot learning via the use of video data. LfV datasets and benchmarks are also reviewed. The survey closes with a critical discussion of challenges and opportunities. Here, we advocate for scalable foundation model approaches that can leverage the full range of available internet video to aid the learning of robot policies and dynamics models. We hope this survey can inform and catalyse further LfV research, facilitating progress towards the development of general-purpose robots.

arxiv情報

著者 Robert McCarthy,Daniel C. H. Tan,Dominik Schmidt,Fernando Acero,Nathan Herr,Yilun Du,Thomas G. Thuruthel,Zhibin Li
発行日 2024-10-14 17:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク