要約
高次元の視覚観察から制御メカニズムを直接学習する視覚運動ポリシーは、複雑な視覚変化を伴う新しい環境に適応する際の課題に直面します。
データ拡張は、データの多様性を豊かにすることで、これらの一般化ギャップを埋めるための有望な方法として浮上しています。
ただし、観察全体を単純に強化すると、ポリシーの学習に過剰な負担がかかり、パフォーマンスの低下につながる可能性さえあります。
この論文では、次の 2 つの側面から視覚運動ポリシーの汎化能力を向上させ、トレーニングの安定性を維持することを提案します。 1) 3 つの補助損失を伴う自己教師あり再構成タスクを通じて制御認識マスクを学習し、その後、強力な拡張のみを適用します。
マスクに基づいて制御に無関係な領域に適用し、汎化ギャップを削減します。
2) 視覚強化学習 (RL) に蔓延するトレーニングの不安定性の問題に対処するために、低レベルの環境状態を処理する事前トレーニング済み RL エキスパートからの知識を学生の視覚運動ポリシーに抽出します。
その後、このポリシーは、さらに微調整することなく、目に見えない環境に展開されます。
私たちは、DMControl Generalization Benchmark (DMC-GB)、強化された Robot Manipulation Distraction Benchmark (RMDB)、および特殊な長水平の引き出しを開けるロボット タスクなど、さまざまなベンチマークにわたって比較およびアブレーション研究を実施しました。
広範な実験結果は、我々の方法の有効性をよく示しており、例えば、DMC-GB のビデオハード設定において以前の方法と比較して 17% の改善を示しています。
要約(オリジナル)
Visuomotor policies, which learn control mechanisms directly from high-dimensional visual observations, confront challenges in adapting to new environments with intricate visual variations. Data augmentation emerges as a promising method for bridging these generalization gaps by enriching data variety. However, straightforwardly augmenting the entire observation shall impose excessive burdens on policy learning and may even result in performance degradation. In this paper, we propose to improve the generalization ability of visuomotor policies as well as preserve training stability from two aspects: 1) We learn a control-aware mask through a self-supervised reconstruction task with three auxiliary losses and then apply strong augmentation only to those control-irrelevant regions based on the mask to reduce the generalization gaps. 2) To address training instability issues prevalent in visual reinforcement learning (RL), we distill the knowledge from a pretrained RL expert processing low-level environment states, to the student visuomotor policy. The policy is subsequently deployed to unseen environments without any further finetuning. We conducted comparison and ablation studies across various benchmarks: the DMControl Generalization Benchmark (DMC-GB), the enhanced Robot Manipulation Distraction Benchmark (RMDB), and a specialized long-horizontal drawer-opening robotic task. The extensive experimental results well demonstrate the effectiveness of our method, e.g., showing a 17\% improvement over previous methods in the video-hard setting of DMC-GB.
arxiv情報
著者 | Yinuo Zhao,Kun Wu,Tianjiao Yi,Zhiyuan Xu,Xiaozhu Ju,Zhengping Che,Qinru Qiu,Chi Harold Liu,Jian Tang |
発行日 | 2024-01-17 15:05:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google