要約
私たちは、学習エージェントが唯一の学習ソースとして専門家のビデオにアクセスできる、視覚的観察からの模倣学習の問題に焦点を当てます。
このフレームワークの課題には、専門家のアクションが存在しないことと、グラウンドトゥルースの状態はピクセルからのみ推測できるため、環境が部分的に観測可能であることが含まれます。
この問題に取り組むために、私たちはまず、部分的に観察可能な環境における模倣学習の理論的分析を実行します。
エキスパートとエージェントの潜在状態遷移分布間の乖離に関して、学習エージェントの準最適性の上限を設定します。
この分析を動機として、我々は、観察からの潜在的敵対的模倣と呼ばれるアルゴリズムを導入する。これは、ポリシー外の敵対的模倣技術と、一連の観察から学習されたエージェントの状態の潜在的表現とを組み合わせる。
高次元の連続ロボットタスクの実験では、私たちのアルゴリズムが最先端のパフォーマンスに匹敵し、同時に大幅な計算上の利点を提供することを示しました。
さらに、専門家のビデオを活用して、ピクセルからの強化学習の効率を向上させるために私たちの方法をどのように使用できるかを示します。
再現性を確保するために、コードへの無料アクセスを提供しています。
要約(オリジナル)
We focus on the problem of imitation learning from visual observations, where the learning agent has access to videos of experts as its sole learning source. The challenges of this framework include the absence of expert actions and the partial observability of the environment, as the ground-truth states can only be inferred from pixels. To tackle this problem, we first conduct a theoretical analysis of imitation learning in partially observable environments. We establish upper bounds on the suboptimality of the learning agent with respect to the divergence between the expert and the agent latent state-transition distributions. Motivated by this analysis, we introduce an algorithm called Latent Adversarial Imitation from Observations, which combines off-policy adversarial imitation techniques with a learned latent representation of the agent’s state from sequences of observations. In experiments on high-dimensional continuous robotic tasks, we show that our algorithm matches state-of-the-art performance while providing significant computational advantages. Additionally, we show how our method can be used to improve the efficiency of reinforcement learning from pixels by leveraging expert videos. To ensure reproducibility, we provide free access to our code.
arxiv情報
著者 | Vittorio Giammarino,James Queeney,Ioannis Ch. Paschalidis |
発行日 | 2023-09-29 16:20:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google