要約
タイトル:Reinforcement Learning from Passive Data via Latent Intentions
要約:
– パッシブな観察データ(人間のビデオなど)は情報が豊富であり、しかし現在の強化学習法では十分活用されていない。
– しかし、報酬やアクションのラベルがなくても、パッシブなデータであっても、特徴を学習した上で強化学習の下流処理を加速することが可能である。
– このアプローチは、意図(タスクを果たすためのエージェントの動作が将来的な結果にどのように影響するかを測定する)をモデリングすることでパッシブなデータから学習する方法である。
– 時間差分学習の目的を提案し、意図について学習する。このアルゴリズムは従来のRLに似ているが、完全にパッシブなデータから学習する。
– この目的を最適化することで、エージェントは、環境内の状態、方針、可能な結果の表現をすべて、観測データから学習する。
– 理論的・実証的には、この手法は、下流タスクに適した価値予測の特徴を学習し、さまざまな形式のパッシブなデータから学習する能力を示している。 これには、エンボディメントの異なるビデオデータやYouTubeのビデオも含まれる。
要約(オリジナル)
Passive observational data, such as human videos, is abundant and rich in information, yet remains largely untapped by current RL methods. Perhaps surprisingly, we show that passive data, despite not having reward or action labels, can still be used to learn features that accelerate downstream RL. Our approach learns from passive data by modeling intentions: measuring how the likelihood of future outcomes change when the agent acts to achieve a particular task. We propose a temporal difference learning objective to learn about intentions, resulting in an algorithm similar to conventional RL, but which learns entirely from passive data. When optimizing this objective, our agent simultaneously learns representations of states, of policies, and of possible outcomes in an environment, all from raw observational data. Both theoretically and empirically, this scheme learns features amenable for value prediction for downstream tasks, and our experiments demonstrate the ability to learn from many forms of passive data, including cross-embodiment video data and YouTube videos.
arxiv情報
著者 | Dibya Ghosh,Chethan Bhateja,Sergey Levine |
発行日 | 2023-04-10 17:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI