要約
学習状態表現は、多くの環境でサンプル効率と収益の両方を向上させる可能性があるため、強化学習 (RL) において安定した人気を得ています。
簡単で効率的な方法は、補助タスク、つまり実際の RL タスクとは異なるタスクでトレーニングされた別個のニューラル ネットワークを使用して表現を生成することです。
このような補助タスクの全範囲が文献で提案されていますが、典型的な連続制御ベンチマーク環境での比較は計算コストが高く、私たちの知る限り、これまで実行されたことはありません。
このペーパーでは、最先端のオフポリシー RL アルゴリズムでトレーニングされた数百のエージェントに基づいて、一般的な補助タスクの比較を示します。
単純な振り子から複雑なシミュレートされたロボットタスクに至るまでの環境で、サンプル効率と収益の両方で考えられる改善を比較します。
私たちの調査結果は、補助タスクを使用した表現学習が高次元で複雑な環境に有益であり、学習環境のダイナミクスが報酬を予測するよりも好ましいことを示しています。
これらの洞察により、他の研究者が特定の問題に対して表現学習をどのように活用するかについて、より多くの情報に基づいた意思決定ができるようになると私たちは信じています。
要約(オリジナル)
Learning state representations has gained steady popularity in reinforcement learning (RL) due to its potential to improve both sample efficiency and returns on many environments. A straightforward and efficient method is to generate representations with a distinct neural network trained on an auxiliary task, i.e. a task that differs from the actual RL task. While a whole range of such auxiliary tasks has been proposed in the literature, a comparison on typical continuous control benchmark environments is computationally expensive and has, to the best of our knowledge, not been performed before. This paper presents such a comparison of common auxiliary tasks, based on hundreds of agents trained with state-of-the-art off-policy RL algorithms. We compare possible improvements in both sample efficiency and returns for environments ranging from simple pendulum to a complex simulated robotics task. Our findings show that representation learning with auxiliary tasks is beneficial for environments of higher dimension and complexity, and that learning environment dynamics is preferable to predicting rewards. We believe these insights will enable other researchers to make more informed decisions on how to utilize representation learning for their specific problem.
arxiv情報
著者 | Moritz Lange,Noah Krystiniak,Raphael C. Engelhardt,Wolfgang Konen,Laurenz Wiskott |
発行日 | 2023-10-06 13:22:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google