要約
タイトル:強化学習におけるニューラルネットワーク表現の特性の調査
要約:
– 本論文では、深層強化学習システムによって学習された表現の特性について調査しています。
– 強化学習の表現に関する早期の研究は、直交性や疎性などといった望ましい特性を達成するための固定基底アーキテクチャの設計に焦点を当てていました。
– 深層強化学習手法のアイデアは、エージェントの設計者が表現的特性をエンコードしないことであり、データストリームが表現の特性を決定するというものです。適切なトレーニングスキームの下で良好な表現が出現します。
– 本論文では、強化学習における転移を支援する表現の特性を実証的に調査し、25,000以上のエージェント-タスク設定で6つの表現特性を導入して測定します。
– 我々は、異なる補助損失を持つDeep Q-learningエージェントをピクセルベースのナビゲーション環境で考慮します。ソースタスクと転移タスクが異なる目標位置に対応しています。
– 課題の類似度を変化させて、表現特性と転移性能を測定および相関させることにより、なぜある表現が転送に適しているのかをより詳しく理解するための方法を開発しました。
– 我々は、Atari 2600のゲームモード間で正常に転送されたRainbowエージェントによって学習された表現を調査することによって、手法の一般性を示しました。
要約(オリジナル)
In this paper we investigate the properties of representations learned by deep reinforcement learning systems. Much of the early work on representations for reinforcement learning focused on designing fixed-basis architectures to achieve properties thought to be desirable, such as orthogonality and sparsity. In contrast, the idea behind deep reinforcement learning methods is that the agent designer should not encode representational properties, but rather that the data stream should determine the properties of the representation — good representations emerge under appropriate training schemes. In this paper we bring these two perspectives together, empirically investigating the properties of representations that support transfer in reinforcement learning. We introduce and measure six representational properties over more than 25 thousand agent-task settings. We consider Deep Q-learning agents with different auxiliary losses in a pixel-based navigation environment, with source and transfer tasks corresponding to different goal locations. We develop a method to better understand why some representations work better for transfer, through a systematic approach varying task similarity and measuring and correlating representation properties with transfer performance. We demonstrate the generality of the methodology by investigating representations learned by a Rainbow agent that successfully transfer across games modes in Atari 2600.
arxiv情報
著者 | Han Wang,Erfan Miahi,Martha White,Marlos C. Machado,Zaheer Abbas,Raksha Kumaraswamy,Vincent Liu,Adam White |
発行日 | 2023-05-05 04:24:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI