Differentiable Architecture Search for Reinforcement Learning

要約

この論文では、基本的な問題を調査します: 勾配ベースのニューラル アーキテクチャ検索 (NAS) 手法はどの程度まで RL に適用できますか?
元の DARTS を便利なベースラインとして使用すると、見つかった離散アーキテクチャは、オフポリシーおよびオンポリシーの RL アルゴリズム全体で、離散および連続アクション空間環境の両方で手動アーキテクチャ設計と比較して最大 250% のパフォーマンスを達成できることがわかりました。
より多くの計算時間。
さらに、多数のアブレーション研究を通じて、DARTS がスーパーネット フレーズ中に操作を正しく重み付けするだけでなく、ランダム検索よりも最大 30 倍効率的に結果の離散セルを徐々に改善することを体系的に検証します。
RL。

要約(オリジナル)

In this paper, we investigate the fundamental question: To what extent are gradient-based neural architecture search (NAS) techniques applicable to RL? Using the original DARTS as a convenient baseline, we discover that the discrete architectures found can achieve up to 250% performance compared to manual architecture designs on both discrete and continuous action space environments across off-policy and on-policy RL algorithms, at only 3x more computation time. Furthermore, through numerous ablation studies, we systematically verify that not only does DARTS correctly upweight operations during its supernet phrase, but also gradually improves resulting discrete cells up to 30x more efficiently than random search, suggesting DARTS is surprisingly an effective tool for improving architectures in RL.

arxiv情報

著者 Yingjie Miao,Xingyou Song,John D. Co-Reyes,Daiyi Peng,Summer Yue,Eugene Brevdo,Aleksandra Faust
発行日 2022-11-15 13:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク