要約
近年、深層強化学習 (RL) は大幅に進歩しました。
それにもかかわらず、適切なハイパーパラメータ構成と報酬関数を見つけることは専門家にとっても依然として困難であり、パフォーマンスはこれらの設計の選択に大きく依存します。
また、ほとんどの RL 研究は、これらの選択に関する知識がすでに存在する既知のベンチマークに基づいて実施されます。
ただし、新しい実用的なアプリケーションでは、適切なハイパーパラメータや報酬関数に関する事前知識が利用できない複雑なタスクが発生することが多いため、それらを最初から導出する必要があります。
以前の研究では、ハイパーパラメータまたは報酬関数のいずれかを個別に自動的に調整することが検討されました。
我々は、RL アルゴリズムのハイパーパラメータ構成と報酬関数が相互に依存していることが多く、どちらか一方に適切な値がなければ完全に最適化できないことを経験的に示します。
次に、ハイパーパラメータと報酬関数を組み合わせた最適化の方法論を提案します。
さらに、学習されたポリシーの安定性を向上させるための最適化目標として、分散ペナルティを含めます。
私たちは、Proximal Policy Optimization と Soft Actor-Critic を使用して 4 つの環境で広範な実験を実施しました。
私たちの結果は、複合最適化により、計算コストのわずかな増加のみで、環境の半分でベースラインのパフォーマンスが大幅に向上し、他の環境で競争力のあるパフォーマンスを達成できることを示しています。
これは、複合最適化がベスト プラクティスであるべきであることを示唆しています。
要約(オリジナル)
There has been significant progress in deep reinforcement learning (RL) in recent years. Nevertheless, finding suitable hyperparameter configurations and reward functions remains challenging even for experts, and performance heavily relies on these design choices. Also, most RL research is conducted on known benchmarks where knowledge about these choices already exists. However, novel practical applications often pose complex tasks for which no prior knowledge about good hyperparameters and reward functions is available, thus necessitating their derivation from scratch. Prior work has examined automatically tuning either hyperparameters or reward functions individually. We demonstrate empirically that an RL algorithm’s hyperparameter configurations and reward function are often mutually dependent, meaning neither can be fully optimised without appropriate values for the other. We then propose a methodology for the combined optimisation of hyperparameters and the reward function. Furthermore, we include a variance penalty as an optimisation objective to improve the stability of learned policies. We conducted extensive experiments using Proximal Policy Optimisation and Soft Actor-Critic on four environments. Our results show that combined optimisation significantly improves over baseline performance in half of the environments and achieves competitive performance in the others, with only a minor increase in computational costs. This suggests that combined optimisation should be best practice.
arxiv情報
著者 | Julian Dierkes,Emma Cramer,Holger H. Hoos,Sebastian Trimpe |
発行日 | 2024-06-26 12:23:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google