Towards Generalist Robot Learning from Internet Video: A Survey

要約

この調査では、強化学習 (RL) とロボット工学のコンテキストでビデオから学習する (LfV) 方法の概要を示します。
私たちは、大規模なインターネット ビデオ データセットに拡張できる方法と、その過程で世界の力学と人間の物理的行動に関する基礎的な知識を抽出できる方法に焦点を当てています。
このような手法は、汎用ロボットの開発に大いに期待されています。
まず、LfV-for-robotics 設定に関連する基本概念の概要を説明します。
これには、LfV 手法が提供できるエキサイティングな利点 (例: 利用可能なロボット データを超えた一般化の向上) についての議論と、LfV の主要な課題 (例: ビデオでの情報の不足や LfV 配信の変化) についての解説が含まれます。
私たちの文献レビューは、大規模で異種のビデオ データセットから知識を抽出できるビデオ基盤モデル技術の分析から始まります。
次に、特にビデオ データをロボット学習に活用する方法を確認します。
ここでは、RL 知識モダリティ (KM) がビデオ データの使用からどのようなメリットを受けるかに応じて作業を分類します。
さらに、ビデオ内の欠落しているアクション ラベルに対処するアクション表現のレビューなど、LfV の課題を軽減するためのテクニックにも焦点を当てます。
最後に、LfV の課題と機会についての議論で終わる前に、LfV データセットとベンチマークを検討します。
ここでは、インターネット ビデオ データの全範囲を活用でき、最も有望な RL KM、つまりポリシー モデルとダイナミクス モデルの学習を対象とした、スケーラブルな基盤モデル アプローチを提唱します。
全体として、この調査が LfV の新興分野の包括的な参考資料として機能し、この分野のさらなる研究を促進し、汎用ロボットの開発に向けた進歩を促進することを願っています。

要約(オリジナル)

This survey presents an overview of methods for learning from video (LfV) in the context of reinforcement learning (RL) and robotics. We focus on methods capable of scaling to large internet video datasets and, in the process, extracting foundational knowledge about the world’s dynamics and physical human behaviour. Such methods hold great promise for developing general-purpose robots. We open with an overview of fundamental concepts relevant to the LfV-for-robotics setting. This includes a discussion of the exciting benefits LfV methods can offer (e.g., improved generalization beyond the available robot data) and commentary on key LfV challenges (e.g., missing information in video and LfV distribution shifts). Our literature review begins with an analysis of video foundation model techniques that can extract knowledge from large, heterogeneous video datasets. Next, we review methods that specifically leverage video data for robot learning. Here, we categorise work according to which RL knowledge modality (KM) benefits from the use of video data. We additionally highlight techniques for mitigating LfV challenges, including reviewing action representations that address missing action labels in video. Finally, we examine LfV datasets and benchmarks, before concluding with a discussion of challenges and opportunities in LfV. Here, we advocate for scalable foundation model approaches that can leverage the full range of internet video data, and that target the learning of the most promising RL KMs: the policy and dynamics model. Overall, we hope this survey will serve as a comprehensive reference for the emerging field of LfV, catalysing further research in the area and facilitating progress towards the development of general-purpose robots.

arxiv情報

著者 Robert McCarthy,Daniel C. H. Tan,Dominik Schmidt,Fernando Acero,Nathan Herr,Yilun Du,Thomas G. Thuruthel,Zhibin Li
発行日 2024-06-07 09:25:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク