要約
深層強化学習 (ディープ RL) は、アルゴリズム設計とハイパーパラメーターの慎重な選択の組み合わせにより、さまざまな領域で多大な成功を収めています。
アルゴリズムの改善は、多くの場合、以前のアプローチに基づいて構築された反復的な強化の結果ですが、ハイパーパラメーターの選択は通常、以前の方法から継承されるか、提案された手法専用に微調整されます。
ハイパーパラメータの選択は、パフォーマンスに重大な影響を与えるにもかかわらず、アルゴリズムの進歩によって影が薄れてしまうことがよくあります。
この論文では、さまざまなハイパーパラメータの一貫性と信頼性を定量化するための新しいスコアの導入など、値ベースの深層強化学習エージェントのハイパーパラメータ選択の信頼性に焦点を当てた広範な実証研究を実施しています。
私たちの発見は、どのハイパーパラメータを調整するのが最も重要であるかを確立するのに役立つだけでなく、どの調整が異なるトレーニング体制間で一貫性を保つかを明確にするのにも役立ちます。
要約(オリジナル)
Deep reinforcement learning (deep RL) has achieved tremendous success on various domains through a combination of algorithmic design and careful selection of hyper-parameters. Algorithmic improvements are often the result of iterative enhancements built upon prior approaches, while hyper-parameter choices are typically inherited from previous methods or fine-tuned specifically for the proposed technique. Despite their crucial impact on performance, hyper-parameter choices are frequently overshadowed by algorithmic advancements. This paper conducts an extensive empirical study focusing on the reliability of hyper-parameter selection for value-based deep reinforcement learning agents, including the introduction of a new score to quantify the consistency and reliability of various hyper-parameters. Our findings not only help establish which hyper-parameters are most critical to tune, but also help clarify which tunings remain consistent across different training regimes.
arxiv情報
著者 | Johan Obando-Ceron,João G. M. Araújo,Aaron Courville,Pablo Samuel Castro |
発行日 | 2024-11-29 18:51:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google