要約
強化学習における経験的設計は簡単な作業ではありません。
優れた実験を実行するには、細部への注意が必要であり、場合によっては大量の計算リソースが必要です。
1 ドルあたりで利用できるコンピューティング リソースは急速に増加し続けていますが、強化学習における典型的な実験の規模も急速に増加しています。
現在では、数百万のパラメータを使用してエージェントを数十のタスクに対してベンチマークすることが一般的になっており、それぞれのタスクには 30 日相当の経験が必要です。
これらの実験の規模は、特にアルゴリズムを比較する場合、適切な統計的証拠の必要性と矛盾することがよくあります。
最近の研究では、一般的なアルゴリズムがいかにハイパーパラメータ設定や実装の詳細に影響されやすいか、そして一般的な経験的慣行が弱い統計的証拠につながることが明らかになりました (Machado et al., 2018; Henderson et al., 2018)。
ここではこれをさらに一歩進めます。
この原稿は、行動を促すものであると同時に、強化学習で優れた実験を行う方法に関する包括的なリソースでもあります。
特に、一般的なパフォーマンス測定の基礎となる統計的仮定、パフォーマンスの変動と安定性を適切に特徴付ける方法、仮説テスト、複数のエージェントを比較するための特別な考慮事項、ベースラインと例示的なサンプルの構築、ハイパーパラメータと実験者のバイアスへの対処方法について説明します。
。
全体を通して、文献で見つかった一般的な間違いと、実験例でのそれらの統計的結果を強調します。
このドキュメントの目的は、強化学習における優れた科学を行うために前例のないコンピューティングをどのように活用できるかについての答えを提供し、経験的設計における潜在的な落とし穴に注意を払うことです。
要約(オリジナル)
Empirical design in reinforcement learning is no small task. Running good experiments requires attention to detail and at times significant computational resources. While compute resources available per dollar have continued to grow rapidly, so have the scale of typical experiments in reinforcement learning. It is now common to benchmark agents with millions of parameters against dozens of tasks, each using the equivalent of 30 days of experience. The scale of these experiments often conflict with the need for proper statistical evidence, especially when comparing algorithms. Recent studies have highlighted how popular algorithms are sensitive to hyper-parameter settings and implementation details, and that common empirical practice leads to weak statistical evidence (Machado et al., 2018; Henderson et al., 2018). Here we take this one step further. This manuscript represents both a call to action, and a comprehensive resource for how to do good experiments in reinforcement learning. In particular, we cover: the statistical assumptions underlying common performance measures, how to properly characterize performance variation and stability, hypothesis testing, special considerations for comparing multiple agents, baseline and illustrative example construction, and how to deal with hyper-parameters and experimenter bias. Throughout we highlight common mistakes found in the literature and the statistical consequences of those in example experiments. The objective of this document is to provide answers on how we can use our unprecedented compute to do good science in reinforcement learning, as well as stay alert to potential pitfalls in our empirical design.
arxiv情報
著者 | Andrew Patterson,Samuel Neumann,Martha White,Adam White |
発行日 | 2024-10-29 17:44:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google