Towards Principled Representation Learning from Videos for Reinforcement Learning

要約

ゲームエージェントやソフトウェアテストなどのタスクに豊富に利用できるビデオデータを使用して、意思決定のための事前トレーニング表現を研究します。
この問題に関しては、経験的にはかなりの進歩が見られましたが、理論的な理解は依然として欠けています。
私たちは、表現学習のための原則に基づいたアプローチの理論的調査を開始し、ビデオ データを使用して基礎となる MDP の潜在状態表現を学習することに焦点を当てます。
私たちは 2 種類の設定を研究します。1 つは観測に IID ノイズが存在する場合、もう 1 つは外因性ノイズ (人の動きや動きなど、時間的に相関する非 IID ノイズ) も存在する、より困難な設定です。
背景に車。
私たちは、自動エンコーディング、時間対比学習、順方向モデリングという 3 つの一般的に使用されるアプローチを研究します。
iid ノイズのみの存在下での時間対比学習とフォワード モデリングの上限を証明します。
これらのアプローチが潜在状態を学習し、それを使用して多項式サンプルの複雑さで効率的な下流 RL を実行できることを示します。
外因性ノイズも存在する場合、ビデオ データからの学習のサンプルの複雑さは、アクションラベル付きの軌跡データからの学習よりも指数関数的に悪くなる可能性があることを示す下限結果を確立します。
これは、ビデオ事前トレーニングによる強化学習が難しい理由の一部を説明します。
これらの表現学習方法を 2 つの視覚領域で評価し、理論的発見と一致する結果が得られました。

要約(オリジナル)

We study pre-training representations for decision-making using video data, which is abundantly available for tasks such as game agents and software testing. Even though significant empirical advances have been made on this problem, a theoretical understanding remains absent. We initiate the theoretical investigation into principled approaches for representation learning and focus on learning the latent state representations of the underlying MDP using video data. We study two types of settings: one where there is iid noise in the observation, and a more challenging setting where there is also the presence of exogenous noise, which is non-iid noise that is temporally correlated, such as the motion of people or cars in the background. We study three commonly used approaches: autoencoding, temporal contrastive learning, and forward modeling. We prove upper bounds for temporal contrastive learning and forward modeling in the presence of only iid noise. We show that these approaches can learn the latent state and use it to do efficient downstream RL with polynomial sample complexity. When exogenous noise is also present, we establish a lower bound result showing that the sample complexity of learning from video data can be exponentially worse than learning from action-labeled trajectory data. This partially explains why reinforcement learning with video pre-training is hard. We evaluate these representational learning methods in two visual domains, yielding results that are consistent with our theoretical findings.

arxiv情報

著者 Dipendra Misra,Akanksha Saran,Tengyang Xie,Alex Lamb,John Langford
発行日 2024-03-20 17:28:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク