Towards Generalist Robot Learning from Internet Video: A Survey

要約

深層学習を大規模で多様なインターネット データに拡張することで、視覚的および自然言語の理解と生成において驚くほど汎用的な機能が得られました。
しかし、ロボット工学におけるデータは依然として不足しており、収集が困難であり、ロボット学習でも同様の一般的な能力を獲得するのに苦労しています。
Promising Learning from Video (LfV) 手法は、従来のロボット データを大規模なインターネット ビデオ データで強化することで、ロボット データのボトルネックに対処することを目的としています。
このビデオ データは、物理的動作と世界の基礎となる物理学に関する広範な基礎情報を提供するため、ジェネラリスト ロボットにとって非常に有益な情報となります。
この調査では、LfV の新興分野について徹底的に概観します。
LfV の利点と課題を含む基本的な概念を概説します。
大規模なインターネット ビデオから知識を抽出し、LfV の主要な課題に対処し、ビデオ データを使用して下流のロボットと強化学習を強化するための現在の方法の包括的なレビューを提供します。
この調査は、LfV における課題と機会についての批判的な議論で終わります。
ここでは、利用可能なインターネット ビデオをすべて活用して、ロボット ポリシーとダイナミクス モデルの学習を改善できる、スケーラブルな基盤モデル アプローチを提唱します。
この調査がさらなる LfV 研究に情報を与え、促進し、汎用ロボットの開発に向けた進歩を促進することを願っています。

要約(オリジナル)

Scaling deep learning to massive, diverse internet data has yielded remarkably general capabilities in visual and natural language understanding and generation. However, data has remained scarce and challenging to collect in robotics, seeing robot learning struggle to obtain similarly general capabilities. Promising Learning from Videos (LfV) methods aim to address the robotics data bottleneck by augmenting traditional robot data with large-scale internet video data. This video data offers broad foundational information regarding physical behaviour and the underlying physics of the world, and thus can be highly informative for a generalist robot. In this survey, we present a thorough overview of the emerging field of LfV. We outline fundamental concepts, including the benefits and challenges of LfV. We provide a comprehensive review of current methods for extracting knowledge from large-scale internet video, addressing key challenges in LfV, and boosting downstream robot and reinforcement learning via the use of video data. The survey concludes with a critical discussion of challenges and opportunities in LfV. Here, we advocate for scalable foundation model approaches that can leverage the full range of available internet video to improve the learning of robot policies and dynamics models. We hope this survey can inform and catalyse further LfV research, driving progress towards the development of general-purpose robots.

arxiv情報

著者 Robert McCarthy,Daniel C. H. Tan,Dominik Schmidt,Fernando Acero,Nathan Herr,Yilun Du,Thomas G. Thuruthel,Zhibin Li
発行日 2024-11-12 12:43:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク