要約
現実世界の強化学習 (RL) 環境は、ロボット工学であろうと産業環境であろうと、非視覚的な観察を伴うことが多く、効率的であるだけでなく信頼性があり、したがって解釈可能で柔軟な RL アプローチが必要です。
効率を向上させるために、補助タスクを使用して状態表現学習を実行するエージェントが視覚観察のコンテキストで広く研究されています。
ただし、現実世界の問題の場合は、RL エージェントから切り離された専用の表現学習モジュールの方が要件を満たすのに適しています。
この研究では、私たちの知る限り、低次元の非視覚的観測に対する唯一の分離表現学習方法に基づいて、一般的な補助タスクを比較します。
私たちは、単純な振り子から複雑なシミュレートされたロボットタスクに至るまでの環境におけるサンプル効率と利益の潜在的な改善を評価します。
私たちの調査結果は、補助タスクを使用した表現学習は十分に複雑な環境でのみパフォーマンスの向上をもたらし、報酬を予測するよりも学習環境のダイナミクスが好ましいことを示しています。
これらの洞察は、非視覚観察に対する解釈可能な表現学習アプローチの将来の開発に情報を提供し、現実世界のシナリオでの RL ソリューションの使用を前進させることができます。
要約(オリジナル)
Real-world reinforcement learning (RL) environments, whether in robotics or industrial settings, often involve non-visual observations and require not only efficient but also reliable and thus interpretable and flexible RL approaches. To improve efficiency, agents that perform state representation learning with auxiliary tasks have been widely studied in visual observation contexts. However, for real-world problems, dedicated representation learning modules that are decoupled from RL agents are more suited to meet requirements. This study compares common auxiliary tasks based on, to the best of our knowledge, the only decoupled representation learning method for low-dimensional non-visual observations. We evaluate potential improvements in sample efficiency and returns for environments ranging from a simple pendulum to a complex simulated robotics task. Our findings show that representation learning with auxiliary tasks only provides performance gains in sufficiently complex environments and that learning environment dynamics is preferable to predicting rewards. These insights can inform future development of interpretable representation learning approaches for non-visual observations and advance the use of RL solutions in real-world scenarios.
arxiv情報
| 著者 | Moritz Lange,Noah Krystiniak,Raphael C. Engelhardt,Wolfgang Konen,Laurenz Wiskott |
| 発行日 | 2023-10-09 13:02:07+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google