要約
視覚ベースの強化学習 (RL) では、エージェントはトレーニング中に観察されなかった状態空間の環境変化をうまく一般化するのに苦労することがよくあります。
変動は、背景雑音などのタスクに無関係な機能と、最適な決定に関連するロボット構成などのタスクに関連する機能の両方で発生する可能性があります。
どちらの状況でも一般化を達成するには、エージェントは変更された機能が決定に与える影響を正確に理解する必要があります。つまり、変更された機能とポリシー モデル内の決定の間の真の関連性を確立する必要があります。
ただし、状態空間内の特徴間には固有の相関関係があるため、特徴と決定の間の関連性が複雑になり、ポリシーでそれらを区別することが困難になります。
この目的を達成するために、サンプルの再重み付けを通じてこれらの相関を排除する Saliency-Guided features Decorrelation (SGFD) を提案します。
具体的には、SGFD は、ランダム フーリエ関数 (RFF) と顕著性マップという 2 つのコア技術で構成されます。
RFF は高次元画像の複雑な非線形相関を推定するために利用され、顕著性マップは変化した特徴を識別するように設計されています。
顕著性マップの指導の下、SGFD はサンプルの再重み付けを使用して、変更された特徴に関連する推定相関を最小限に抑え、それによって視覚的な RL タスクの無相関化を実現します。
私たちの実験結果は、SGFD が幅広いテスト環境でうまく一般化でき、タスクに関係のない変動とタスクに関連した変動の両方の処理において最先端の手法を大幅に上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
In visual-based Reinforcement Learning (RL), agents often struggle to generalize well to environmental variations in the state space that were not observed during training. The variations can arise in both task-irrelevant features, such as background noise, and task-relevant features, such as robot configurations, that are related to the optimal decisions. To achieve generalization in both situations, agents are required to accurately understand the impact of changed features on the decisions, i.e., establishing the true associations between changed features and decisions in the policy model. However, due to the inherent correlations among features in the state space, the associations between features and decisions become entangled, making it difficult for the policy to distinguish them. To this end, we propose Saliency-Guided Features Decorrelation (SGFD) to eliminate these correlations through sample reweighting. Concretely, SGFD consists of two core techniques: Random Fourier Functions (RFF) and the saliency map. RFF is utilized to estimate the complex non-linear correlations in high-dimensional images, while the saliency map is designed to identify the changed features. Under the guidance of the saliency map, SGFD employs sample reweighting to minimize the estimated correlations related to changed features, thereby achieving decorrelation in visual RL tasks. Our experimental results demonstrate that SGFD can generalize well on a wide range of test environments and significantly outperforms state-of-the-art methods in handling both task-irrelevant variations and task-relevant variations.
arxiv情報
著者 | Sili Huang,Yanchao Sun,Jifeng Hu,Siyuan Guo,Hechang Chen,Yi Chang,Lichao Sun,Bo Yang |
発行日 | 2023-12-22 09:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google