要約
視覚観測データのみからポリシーを復元することを目的とした視覚観測からの学習 (LfVO) は、有望ではありますが、困難な問題です。
既存の LfVO アプローチは、非効率的なオンライン学習スキームのみを採用するか、目標状態などの追加のタスク固有の情報を必要とするため、オープンエンドのタスクには適していません。
これらの問題に対処するために、視覚観察から学習するための 2 段階のフレームワークを提案します。
最初の段階では、State-to-Go (STG) Transformer をオフラインで導入して事前トレーニングし、デモンストレーションの潜在的な遷移を予測して区別します。
続いて、第 2 段階では、STG Transformer が下流の強化学習タスクに固有の報酬を提供します。このタスクでは、エージェントは固有の報酬のみから学習します。
Atari と Minecraft に関する実証結果は、私たちが提案した手法がベースラインを上回り、一部のタスクでは環境報酬から学習したポリシーに匹敵するパフォーマンスを達成することさえ示しています。
これらの結果は、状態、アクション、報酬を含む完全なオフライン データセットに依存するのではなく、ビデオのみのデータを利用して、困難な視覚強化学習タスクを解決できる可能性を明らかにしています。
プロジェクトの Web サイトとコードは、https://sites.google.com/view/stgtransformer にあります。
要約(オリジナル)
Learning from visual observation (LfVO), aiming at recovering policies from only visual observation data, is promising yet a challenging problem. Existing LfVO approaches either only adopt inefficient online learning schemes or require additional task-specific information like goal states, making them not suited for open-ended tasks. To address these issues, we propose a two-stage framework for learning from visual observation. In the first stage, we introduce and pretrain State-to-Go (STG) Transformer offline to predict and differentiate latent transitions of demonstrations. Subsequently, in the second stage, the STG Transformer provides intrinsic rewards for downstream reinforcement learning tasks where an agent learns merely from intrinsic rewards. Empirical results on Atari and Minecraft show that our proposed method outperforms baselines and in some tasks even achieves performance comparable to the policy learned from environmental rewards. These results shed light on the potential of utilizing video-only data to solve difficult visual reinforcement learning tasks rather than relying on complete offline datasets containing states, actions, and rewards. The project’s website and code can be found at https://sites.google.com/view/stgtransformer.
arxiv情報
著者 | Bohan Zhou,Ke Li,Jiechuan Jiang,Zongqing Lu |
発行日 | 2023-06-22 13:14:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google