Active Reinforcement Learning under Limited Visual Observability

要約

この研究では、身体化されたエージェントが部分的に観察可能な環境での視覚観察を制御しながら、同時にタスクのアクション ポリシーを学習する能動強化学習 (Active-RL) を調査します。
前者を運動政策、後者を感覚政策と呼びます。
たとえば、人間は目の動き (感覚的ポリシー) とともに手の操作 (運動的ポリシー) によって現実世界の課題を解決します。
Active-RL では、相互に影響を与える 2 つのポリシーを調整する際に課題が生じます。
我々は、運動政策と感覚政策を別々にモデル化するが、固有の感覚運動報酬を使用してそれらを共同学習するフレームワークである、感覚運動理解誘導型能動強化学習である SUGARL を提案します。
この学習可能な報酬は、感覚運動報酬モジュールによって割り当てられ、人間の感覚運動段階に触発されて、自身の運動動作を推測するのに最適な観察を選択する感覚ポリシーを刺激します。
一連の実験を通じて、さまざまな可観測性条件にわたるこの方法の有効性と、既存の RL アルゴリズムへの適応性を示します。
私たちの方法を通じて学習された感覚ポリシーは、効果的なアクティブビジョン戦略を示すことが観察されています。

要約(オリジナル)

In this work, we investigate Active Reinforcement Learning (Active-RL), where an embodied agent simultaneously learns action policy for the task while also controlling its visual observations in partially observable environments. We denote the former as motor policy and the latter as sensory policy. For example, humans solve real world tasks by hand manipulation (motor policy) together with eye movements (sensory policy). Active-RL poses challenges on coordinating two policies given their mutual influence. We propose SUGARL, Sensorimotor Understanding Guided Active Reinforcement Learning, a framework that models motor and sensory policies separately, but jointly learns them using with an intrinsic sensorimotor reward. This learnable reward is assigned by sensorimotor reward module, incentivizes the sensory policy to select observations that are optimal to infer its own motor action, inspired by the sensorimotor stage of humans. Through a series of experiments, we show the effectiveness of our method across a range of observability conditions and its adaptability to existed RL algorithms. The sensory policies learned through our method are observed to exhibit effective active vision strategies.

arxiv情報

著者 Jinghuan Shang,Michael S. Ryoo
発行日 2023-06-01 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク