要約
シミュレーションは、ジェネラリストのポリシーのための安価なスケーリングトレーニングデータの有望なアプローチを提供します。
多様で現実的なタスクからデータを生成するために、既存のアルゴリズムは、ロボット工学に興味がないタスクを幻覚化する可能性のある大きな言語モデル(LLM)に依存しています。
または、慎重に実際のアライメントを必要とするデジタル双子で、スケーリングが困難です。
これらの課題に対処するために、Internet RGBビデオを活用して日常の人間の行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介します。
私たちのアプローチは、2つのフェーズで構成されています。(1)ビデオからのシミュレーションのタスク生成。
(2)コンテキスト内のLLM生成報酬機能を繰り返し利用する強化学習。
9つの異なるタスクで多様で複雑な人間の行動を描いているものから100以上のビデオを再構築することにより、Video2Policyの有効性を実証します。
私たちの方法は、スローなどの複雑で挑戦的なタスクを含む、このようなタスクに関するRLポリシーを正常にトレーニングできます。
最後に、生成されたシミュレーションデータを一般的なポリシーのトレーニングのためにスケーリングできることを示し、実際のロボットにReal2Sim2realの方法で転送できることを示します。
要約(オリジナル)
Simulation offers a promising approach for cheaply scaling training data for generalist policies. To scalably generate data from diverse and realistic tasks, existing algorithms either rely on large language models (LLMs) that may hallucinate tasks not interesting for robotics; or digital twins, which require careful real-to-sim alignment and are hard to scale. To address these challenges, we introduce Video2Policy, a novel framework that leverages internet RGB videos to reconstruct tasks based on everyday human behavior. Our approach comprises two phases: (1) task generation in simulation from videos; and (2) reinforcement learning utilizing in-context LLM-generated reward functions iteratively. We demonstrate the efficacy of Video2Policy by reconstructing over 100 videos from the Something-Something-v2 (SSv2) dataset, which depicts diverse and complex human behaviors on 9 different tasks. Our method can successfully train RL policies on such tasks, including complex and challenging tasks such as throwing. Finally, we show that the generated simulation data can be scaled up for training a general policy, and it can be transferred back to the real robot in a Real2Sim2Real way.
arxiv情報
著者 | Weirui Ye,Fangchen Liu,Zheng Ding,Yang Gao,Oleh Rybkin,Pieter Abbeel |
発行日 | 2025-02-14 03:22:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google