VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning

要約

タイトル:VRL3:ビジュアルディープ強化学習のデータ駆動フレームワーク

要約:
-データ駆動アプローチを採用するために必要な多くの障害がありますが、VRL3はビジュアルディープ強化学習(DRL)の課題を解決するために単純なデザインで強力なデータ駆動フレームワークを提案します。
-データ駆動ビジュアルDRLについての設計原則、新しい結果、および重要な洞察について説明します。
-フレームワークには3つの段階があります。ステージ1では、タスクに関係しないビジュアル表現を学ぶために非RLデータセット(ImageNetなど)を活用します。ステージ2では、オフラインRLデータ(少数のエキスパートデモンストレーションなど)を使用して、タスクに関連する表現をより強力に変換します。ステージ3では、オンラインRLでエージェントを微調整します。
-実際のビジュアル入力とスパース報酬を持つ厳しい手作業操作タスクのセットにおいて、SOTAに比べて、VRL3は平均して780%のサンプル効率が良くなりました。そして、最も難しいタスクでは、VRL3はサンプル効率が1220%(より広いエンコーダを使用すると2440%)であり、計算のわずか10%でタスクを解決します。これらの重要な結果は、データ駆動の深層強化学習のポテンシャルの大きさを明確に示しています。

要約(オリジナル)

We propose VRL3, a powerful data-driven framework with a simple design for solving challenging visual deep reinforcement learning (DRL) tasks. We analyze a number of major obstacles in taking a data-driven approach, and present a suite of design principles, novel findings, and critical insights about data-driven visual DRL. Our framework has three stages: in stage 1, we leverage non-RL datasets (e.g. ImageNet) to learn task-agnostic visual representations; in stage 2, we use offline RL data (e.g. a limited number of expert demonstrations) to convert the task-agnostic representations into more powerful task-specific representations; in stage 3, we fine-tune the agent with online RL. On a set of challenging hand manipulation tasks with sparse reward and realistic visual inputs, compared to the previous SOTA, VRL3 achieves an average of 780% better sample efficiency. And on the hardest task, VRL3 is 1220% more sample efficient (2440% when using a wider encoder) and solves the task with only 10% of the computation. These significant results clearly demonstrate the great potential of data-driven deep reinforcement learning.

arxiv情報

著者 Che Wang,Xufang Luo,Keith Ross,Dongsheng Li
発行日 2023-03-31 06:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク