Learning Task-relevant Representations for Generalization via Characteristic Functions of Reward Sequence Distributions

要約

視覚強化学習(RL)を実環境に適用して成功するためには、同じタスクで異なる環境にまたがって汎化することが重要である。しかし、高次元観測でよく見られる視覚的な気晴らしは、視覚強化学習で学習した表現に害を与え、汎化の性能を低下させる可能性がある。この問題に対処するため,我々は,報酬信号がタスクに関連し,かつ視覚的雑念に対して不変であることから,報酬列分布(RSD)を学習することによりタスク関連情報を抽出する新しいアプローチ,すなわち特徴的報酬列予測(CRESP)を提案する.具体的には,RSDの特性関数を用いて高次元分布を近似することにより,タスク関連情報を効果的に抽出するため,CRESPはRSDの特性関数を予測するタスクを導入し,タスク関連表現を学習する.実験では、CRESPが未視聴環境での汎化性能を大幅に向上させ、異なる視覚的な気晴らしを伴うDeepMind Controlタスクにおいて複数の最先端技術を上回る性能を示すことを示した。

要約(オリジナル)

Generalization across different environments with the same tasks is critical for successful applications of visual reinforcement learning (RL) in real scenarios. However, visual distractions — which are common in real scenes — from high-dimensional observations can be hurtful to the learned representations in visual RL, thus degrading the performance of generalization. To tackle this problem, we propose a novel approach, namely Characteristic Reward Sequence Prediction (CRESP), to extract the task-relevant information by learning reward sequence distributions (RSDs), as the reward signals are task-relevant in RL and invariant to visual distractions. Specifically, to effectively capture the task-relevant information via RSDs, CRESP introduces an auxiliary task — that is, predicting the characteristic functions of RSDs — to learn task-relevant representations, because we can well approximate the high-dimensional distributions by leveraging the corresponding characteristic functions. Experiments demonstrate that CRESP significantly improves the performance of generalization on unseen environments, outperforming several state-of-the-arts on DeepMind Control tasks with different visual distractions.

arxiv情報

著者 Rui Yang,Jie Wang,Zijie Geng,Mingxuan Ye,Shuiwang Ji,Bin Li,Feng Wu
発行日 2022-06-09 13:21:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク