要約
近年、リアルタイム処理が実現した影響で、強化学習アルゴリズムを効率的に実装する必要性が高まっています。
RL アルゴリズムで利用されるベルマン方程式の多くの利点にもかかわらず、設計パラメーターの大きな探索空間がないわけではありません。
この研究は、強化学習パラメーター、特にポリシー反復のパラメーターに関連する設計空間の探索に光を当てることを目的としています。
強化学習アルゴリズムのパラメーターを微調整するための膨大な計算コストを考慮して、これらのパラメーターを探索するプロセスを加速し、その見返りとして、最適なポリシーへの収束を加速する自動調整器ベースの順序回帰アプローチを提案します。
私たちのアプローチは、1.82 倍のピーク スピードアップを提供し、以前の最先端技術よりも平均 1.48 倍のスピードアップを実現します。
要約(オリジナル)
With the impact of real-time processing being realized in the recent past, the need for efficient implementations of reinforcement learning algorithms has been on the rise. Albeit the numerous advantages of Bellman equations utilized in RL algorithms, they are not without the large search space of design parameters. This research aims to shed light on the design space exploration associated with reinforcement learning parameters, specifically that of Policy Iteration. Given the large computational expenses of fine-tuning the parameters of reinforcement learning algorithms, we propose an auto-tuner-based ordinal regression approach to accelerate the process of exploring these parameters and, in return, accelerate convergence towards an optimal policy. Our approach provides 1.82x peak speedup with an average of 1.48x speedup over the previous state-of-the-art.
arxiv情報
著者 | Saumil Shivdikar,Jagannath Nirmal |
発行日 | 2023-03-13 23:44:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google