MoVie: Visual Model-Based Policy Adaptation for View Generalization

要約

限られたビューで訓練された視覚強化学習 (RL) エージェントは、学習した能力を目に見えないビューに一般化する際に大きな課題に直面しています。
この固有の困難は、$\textit{一般化の観点}$ の問題として知られています。
この研究では、この根本的な問題を、現実世界の状況によく似た 4 つの異なる非常に困難なシナリオに体系的に分類します。
続いて、テスト時に $\textbf{Mo}$w 一般化 ($\textbf{MoVie}$) の視覚的な $\textbf{Mo}$del ベースのポリシーを問題なく適応できるようにする、単純かつ効果的なアプローチを提案します。
明示的な報酬シグナルの必要性やトレーニング中の変更。
私たちの手法は、DMControl、xArm、Adroit をソースとする合計 $\textbf{18}$ タスクを含む 4 つのシナリオすべてで大幅な進歩を示しており、$\mathbf{33}$%、$\mathbf{86} の相対的な改善が見られます。
それぞれ $% と $\mathbf{152}$% です。
この優れた結果は、現実世界のロボット工学アプリケーションに対する当社のアプローチの計り知れない可能性を浮き彫りにしています。
ビデオは https://yangsizhe.github.io/MoVie/ でご覧いただけます。

要約(オリジナル)

Visual Reinforcement Learning (RL) agents trained on limited views face significant challenges in generalizing their learned abilities to unseen views. This inherent difficulty is known as the problem of $\textit{view generalization}$. In this work, we systematically categorize this fundamental problem into four distinct and highly challenging scenarios that closely resemble real-world situations. Subsequently, we propose a straightforward yet effective approach to enable successful adaptation of visual $\textbf{Mo}$del-based policies for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) during test time, without any need for explicit reward signals and any modification during training time. Our method demonstrates substantial advancements across all four scenarios encompassing a total of $\textbf{18}$ tasks sourced from DMControl, xArm, and Adroit, with a relative improvement of $\mathbf{33}$%, $\mathbf{86}$%, and $\mathbf{152}$% respectively. The superior results highlight the immense potential of our approach for real-world robotics applications. Videos are available at https://yangsizhe.github.io/MoVie/ .

arxiv情報

著者 Sizhe Yang,Yanjie Ze,Huazhe Xu
発行日 2023-07-03 12:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク