Learning to Act without Actions

要約

膨大な量の Web データで大規模なモデルを事前トレーニングすることは、言語や視覚などのいくつかのドメインで強力な一般的なモデルを取得するための効果的なアプローチであることが証明されています。
ただし、このパラダイムは深層強化学習 (RL) にはまだ定着していません。
このギャップは、Web 上の具体化された行動データの最も豊富な形式がビデオで構成されており、オフライン データからポリシーをトレーニングするための既存の方法で必要なアクション ラベルが含まれていないという事実によるものです。
我々は、観察による潜在行動ポリシー(LAPO)を導入します。これは、行動のないデモンストレーションから純粋に潜在行動を推測し、その結果として潜在行動ポリシーを推測する方法です。
手続き的に生成された困難な環境に関する私たちの実験では、LAPO が RL ポリシーを取得するための効果的な事前トレーニング方法として機能し、専門家レベルのパフォーマンスに迅速に微調整できることが示されました。
私たちのアプローチは、Web 上ですぐに入手できる膨大な量のアクション不要のデモンストレーション上で、強力でジェネラリストな RL モデルの事前トレーニングを可能にする重要な足がかりとして機能します。

要約(オリジナル)

Pre-training large models on vast amounts of web data has proven to be an effective approach for obtaining powerful, general models in several domains, including language and vision. However, this paradigm has not yet taken hold in deep reinforcement learning (RL). This gap is due to the fact that the most abundant form of embodied behavioral data on the web consists of videos, which do not include the action labels required by existing methods for training policies from offline data. We introduce Latent Action Policies from Observation (LAPO), a method to infer latent actions and, consequently, latent-action policies purely from action-free demonstrations. Our experiments on challenging procedurally-generated environments show that LAPO can act as an effective pre-training method to obtain RL policies that can then be rapidly fine-tuned to expert-level performance. Our approach serves as a key stepping stone to enabling the pre-training of powerful, generalist RL models on the vast amounts of action-free demonstrations readily available on the web.

arxiv情報

著者 Dominik Schmidt,Minqi Jiang
発行日 2023-12-17 20:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク