Agent-Controller Representations: Principled Offline RL with Rich Exogenous Information

要約

豊富なピクセルベースの視覚観察空間でオフラインで収集されたデータからエージェントを制御する方法を学習することは、強化学習 (RL) の実世界のアプリケーションにとって不可欠です。
この設定における主な課題は、モデル化が難しく、エージェントの制御に無関係な入力情報が存在することです。
この問題は、理論的 RL コミュニティによって、外生情報、つまり観測値に含まれる制御に無関係な情報というレンズを通してアプローチされてきました。
たとえば、交通量の多い通りを移動するロボットは、背景を歩いている他の人、物体のテクスチャ、空の鳥などの無関係な情報を無視する必要があります。
このペーパーでは、視覚的に詳細な外生情報を含む設定に焦点を当て、この問題を研究する機能を提供する新しいオフライン RL ベンチマークを紹介します。
現在の表現学習手法は、ノイズが複雑で時間に依存するプロセスであるデータセットでは失敗する可能性があり、実際のアプリケーションではこのことが一般的であることがわかりました。
これらに対処するために、オフライン RL (ACRO) のエージェント コントローラー表現を学習するために、RL 理論コミュニティで大きな関心を集めているマルチステップ逆モデルを使用することを提案します。
シンプルで報酬を必要としないにもかかわらず、この目的によって作成された表現がベースラインを大幅に上回ることを理論的および経験的に示します。

要約(オリジナル)

Learning to control an agent from data collected offline in a rich pixel-based visual observation space is vital for real-world applications of reinforcement learning (RL). A major challenge in this setting is the presence of input information that is hard to model and irrelevant to controlling the agent. This problem has been approached by the theoretical RL community through the lens of exogenous information, i.e, any control-irrelevant information contained in observations. For example, a robot navigating in busy streets needs to ignore irrelevant information, such as other people walking in the background, textures of objects, or birds in the sky. In this paper, we focus on the setting with visually detailed exogenous information, and introduce new offline RL benchmarks offering the ability to study this problem. We find that contemporary representation learning techniques can fail on datasets where the noise is a complex and time dependent process, which is prevalent in practical applications. To address these, we propose to use multi-step inverse models, which have seen a great deal of interest in the RL theory community, to learn Agent-Controller Representations for Offline-RL (ACRO). Despite being simple and requiring no reward, we show theoretically and empirically that the representation created by this objective greatly outperforms baselines.

arxiv情報

著者 Riashat Islam,Manan Tomar,Alex Lamb,Yonathan Efroni,Hongyu Zang,Aniket Didolkar,Dipendra Misra,Xin Li,Harm van Seijen,Remi Tachet des Combes,John Langford
発行日 2023-08-14 00:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク