ViSaRL: Visual Reinforcement Learning Guided by Human Saliency

要約

強化学習 (RL) を使用して高次元のピクセル入力から複雑な制御タスクを実行するようにロボットをトレーニングすることは、画像観察が主にタスクに無関係な情報で構成されているため、サンプル効率が低くなります。
対照的に、人間はタスクに関連するオブジェクトや領域に視覚的に注意を払うことができます。
この洞察に基づいて、Visual Saliency-Guided Reinforcement Learning (ViSaRL) を紹介します。
ViSaRL を使用して視覚表現を学習すると、DeepMind Control ベンチマーク、シミュレーションおよび実際のロボットでのロボット操作などのさまざまなタスクにおける RL エージェントの成功率、サンプル効率、一般化が大幅に向上します。
CNN と Transformer ベースのエンコーダの両方に顕著性を組み込むためのアプローチを紹介します。
ViSaRL を使用して学習した視覚表現が、知覚ノイズやシーンの変動などの視覚的摂動のさまざまなソースに対して堅牢であることを示します。
ViSaRL は、顕著性を使用しないベースラインと比較して、実際のロボット タスクの成功率をほぼ 2 倍にします。

要約(オリジナル)

Training robots to perform complex control tasks from high-dimensional pixel input using reinforcement learning (RL) is sample-inefficient, because image observations are comprised primarily of task-irrelevant information. By contrast, humans are able to visually attend to task-relevant objects and areas. Based on this insight, we introduce Visual Saliency-Guided Reinforcement Learning (ViSaRL). Using ViSaRL to learn visual representations significantly improves the success rate, sample efficiency, and generalization of an RL agent on diverse tasks including DeepMind Control benchmark, robot manipulation in simulation and on a real robot. We present approaches for incorporating saliency into both CNN and Transformer-based encoders. We show that visual representations learned using ViSaRL are robust to various sources of visual perturbations including perceptual noise and scene variations. ViSaRL nearly doubles success rate on the real-robot tasks compared to the baseline which does not use saliency.

arxiv情報

著者 Anthony Liang,Jesse Thomason,Erdem Bıyık
発行日 2024-09-10 07:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク