Robotic Offline RL from Internet Videos via Value-Function Pre-Training

要約

インターネット データの事前トレーニングは、多くの最新の ML システムで広範な一般化を実現するための重要な要素であることが証明されています。
ロボット強化学習 (RL) でそのような機能を実現するには何が必要でしょうか?
ロボットの経験のデータセットから学習するオフライン RL 手法は、以前のデータをロボット学習パイプラインに活用する 1 つの方法を提供します。
ただし、ビデオは、RL メソッドに必要なアクションや報酬のアノテーションなしで観察のみのエクスペリエンスを提供するため、これらのメソッドは、ロボット工学に利用可能な従来の最大のデータセットであるビデオ データ (Ego4D など) と「タイプの不一致」があります。
この論文では、時間差学習による学習値関数に完全に基づいて、ロボットオフライン RL で大規模な人間のビデオデータセットを活用するためのシステムを開発します。
ビデオ データセットでの値学習は、ビデオ データから学習するための他のアプローチよりも下流のロボットによるオフライン RL に役立つ表現を学習することを示します。
V-PTR と呼ばれる私たちのシステムは、ビデオ データでの事前トレーニングの利点と、多様なロボット データでトレーニングするロボット オフライン RL アプローチを組み合わせており、その結果、操作タスクのパフォーマンスが向上し、堅牢に動作し、広範囲に汎用化される価値関数とポリシーが得られます。
実際の WidowX ロボット上のいくつかの操作タスクにおいて、私たちのフレームワークは以前の方法より大幅に改善されたポリシーを生成します。
私たちのビデオと追加の詳細は、https://dibyaghosh.com/vptr/ でご覧いただけます。

要約(オリジナル)

Pre-training on Internet data has proven to be a key ingredient for broad generalization in many modern ML systems. What would it take to enable such capabilities in robotic reinforcement learning (RL)? Offline RL methods, which learn from datasets of robot experience, offer one way to leverage prior data into the robotic learning pipeline. However, these methods have a ‘type mismatch’ with video data (such as Ego4D), the largest prior datasets available for robotics, since video offers observation-only experience without the action or reward annotations needed for RL methods. In this paper, we develop a system for leveraging large-scale human video datasets in robotic offline RL, based entirely on learning value functions via temporal-difference learning. We show that value learning on video datasets learns representations that are more conducive to downstream robotic offline RL than other approaches for learning from video data. Our system, called V-PTR, combines the benefits of pre-training on video data with robotic offline RL approaches that train on diverse robot data, resulting in value functions and policies for manipulation tasks that perform better, act robustly, and generalize broadly. On several manipulation tasks on a real WidowX robot, our framework produces policies that greatly improve over prior methods. Our video and additional details can be found at https://dibyaghosh.com/vptr/

arxiv情報

著者 Chethan Bhateja,Derek Guo,Dibya Ghosh,Anikait Singh,Manan Tomar,Quan Vuong,Yevgen Chebotar,Sergey Levine,Aviral Kumar
発行日 2023-09-22 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク