When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning

要約

成功または失敗のたびにエージェントの環境がリセットされるエピソード トレーニングは、具体化された強化学習 (RL) エージェントをトレーニングする際の事実上の標準です。
環境を簡単にリセットできるという根本的な仮定は、リセットには一般に現実世界では人間の努力が必要であり、シミュレーションでは計算コストが高くなる可能性があるため、実際には制限されています。
介入。
リセットのない学習作業、つまり {.} リセットフリー RL (RF-RL) は有望ですが、学習を停止させる不可逆的な遷移 ({.} オブジェクトの破損など) の問題に悩まされています。
さらに、RF-RL 中に遭遇する限られた状態の多様性と機器のセットアップは、RF-RL を研究する作業で、モデルを新しい環境に一般化する必要がないことを意味します。
この作業では、有意義に一般化できる視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限に抑えることを目指しています。
一般化の研究は、以前は RF-RL 用に設計されたベンチマークの焦点では​​なかったため、目標、外見上のバリエーション、および構造変化にわたる一般化を評価するために設計された新しいストレッチ ピック アンド プレイス ベンチマークを提案します。
さらに、パフォーマンスの高いリセットを最小化する RL エージェントの構築に向けて、不可逆的な遷移を検出する教師なしメトリックと、一般化を可能にする単一ポリシーのトレーニング メカニズムを提案します。
私たちが提案するアプローチは、Stretch-P\&P および別の一般的な RF-RL ベンチマークで、より少ないリセットでより高い成功率を達成する、以前の一時的、リセット不要、およびリセット最小化アプローチよりも大幅に優れています。
最後に、提案されたアプローチは、他の具現化されたタスクのトレーニングに必要なリセットの数を劇的に減らすことができることを発見しました。

要約(オリジナル)

Episodic training, where an agent’s environment is reset after every success or failure, is the de facto standard when training embodied reinforcement learning (RL) agents. The underlying assumption that the environment can be easily reset is limiting both practically, as resets generally require human effort in the real world and can be computationally expensive in simulation, and philosophically, as we’d expect intelligent agents to be able to continuously learn without intervention. Work in learning without any resets, i.e{.} Reset-Free RL (RF-RL), is promising but is plagued by the problem of irreversible transitions (e.g{.} an object breaking) which halt learning. Moreover, the limited state diversity and instrument setup encountered during RF-RL means that works studying RF-RL largely do not require their models to generalize to new environments. In this work, we instead look to minimize, rather than completely eliminate, resets while building visual agents that can meaningfully generalize. As studying generalization has previously not been a focus of benchmarks designed for RF-RL, we propose a new Stretch Pick-and-Place benchmark designed for evaluating generalizations across goals, cosmetic variations, and structural changes. Moreover, towards building performant reset-minimizing RL agents, we propose unsupervised metrics to detect irreversible transitions and a single-policy training mechanism to enable generalization. Our proposed approach significantly outperforms prior episodic, reset-free, and reset-minimizing approaches achieving higher success rates with fewer resets in Stretch-P\&P and another popular RF-RL benchmark. Finally, we find that our proposed approach can dramatically reduce the number of resets required for training other embodied tasks, in particular for RoboTHOR ObjectNav we obtain higher success rates than episodic approaches using 99.97\% fewer resets.

arxiv情報

著者 Zichen Zhang,Luca Weihs
発行日 2023-03-30 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク