Vid2Act: Activate Offline Videos for Visual RL

要約

オフライン ビデオ データセットで RL モデルを事前トレーニングすることは、オンライン タスクでのトレーニング効率を向上させる有望な方法ですが、ドメイン間のタスク、ダイナミクス、および動作には固有の不一致があるため、困難です。
最近のモデルである APV は、オフライン データセット内のアクション記録を回避し、代わりにソース ドメイン内でタスクとは無関係でアクションのない世界モデルを事前トレーニングすることに重点を置いています。
貴重なアクション条件付きダイナミクスと潜在的に有用なアクションのデモンストレーションをオフライン設定からオンライン設定に転送する方法を学習するモデルベースの RL メソッドである Vid2Act を紹介します。
主なアイデアは、ワールド モデルを行動学習用のシミュレーターとしてだけでなく、ダイナミクス表現の転送とポリシーの転送の両方に対するドメインの関連性を測定するツールとしても使用することです。
具体的には、ドメイン選択的な知識の蒸留損失を使用して、時間とともに変化するタスクの類似性のセットを生成するようにワールド モデルをトレーニングします。
これらの類似点は 2 つの目的に役立ちます。(i) ダイナミクス学習を促進するために最も有用なソース知識を適応的に転送すること、および (ii) ターゲット ポリシーをガイドするために最も関連性の高いソース アクションを再生することを学習することです。
Meta-World と DeepMind Control Suite の両方で、アクションフリーのビジュアル RL 事前トレーニング方法と比較した Vid2Act の利点を実証します。

要約(オリジナル)

Pretraining RL models on offline video datasets is a promising way to improve their training efficiency in online tasks, but challenging due to the inherent mismatch in tasks, dynamics, and behaviors across domains. A recent model, APV, sidesteps the accompanied action records in offline datasets and instead focuses on pretraining a task-irrelevant, action-free world model within the source domains. We present Vid2Act, a model-based RL method that learns to transfer valuable action-conditioned dynamics and potentially useful action demonstrations from offline to online settings. The main idea is to use the world models not only as simulators for behavior learning but also as tools to measure the domain relevance for both dynamics representation transfer and policy transfer. Specifically, we train the world models to generate a set of time-varying task similarities using a domain-selective knowledge distillation loss. These similarities serve two purposes: (i) adaptively transferring the most useful source knowledge to facilitate dynamics learning, and (ii) learning to replay the most relevant source actions to guide the target policy. We demonstrate the advantages of Vid2Act over the action-free visual RL pretraining method in both Meta-World and DeepMind Control Suite.

arxiv情報

著者 Pan Minting,Zheng Yitao,Wang Yunbo,Yang Xiaokang
発行日 2023-06-06 02:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク