A Framework for History-Aware Hyperparameter Optimisation in Reinforcement Learning

要約

強化学習 (RL) システムは、システムのパフォーマンスに影響を与える一連の初期条件 (ハイパーパラメーター) に依存します。
ただし、適切なハイパーパラメーターの選択を定義することは困難な問題です。
ハイパーパラメータの調整では、多くの場合、最適な値を見つけるために手動または自動検索が必要です。
それにもかかわらず、顕著な制限は、複雑なモデルのアルゴリズム評価のコストが高く、チューニング プロセスの計算コストと時間がかかることです。
この論文では、これらのトレードオフを軽減するために、複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案します。
この組み合わせにより、データ ストリームの監視に基づいて実行中の RL システムに関する洞察を効率的かつ控えめに取得し、RL システムの履歴動作に関する推論を可能にする抽象的な表現を作成することができます。
得られた知識は、並列リソースを有効に活用しながら、そのハイパーパラメーターを最適化するために RL システムにフィードバックを提供するために活用されます。
ハイパーパラメータ最適化のための新しい履歴認識イプシロン貪欲ロジックを導入します。これは、トレーニング全体で固定されたままの静的ハイパーパラメータを使用する代わりに、単一エージェントの存続期間中の時間枠にわたるエージェントのパフォーマンスの分析に基づいて、実行時にハイパーパラメータを調整します。
.
RL の変形である DQN を意思決定に使用する 5G モバイル通信のケーススタディで、提案されたアプローチをテストしました。
私たちの実験では、トレーニングの安定性と報酬値に対する履歴を使用したハイパーパラメータ調整の効果が実証されました。
有望な結果は、提案された履歴認識フレームワークが、従来のハイパーパラメーター調整アプローチと比較してパフォーマンスを大幅に改善したことを示しています。

要約(オリジナル)

A Reinforcement Learning (RL) system depends on a set of initial conditions (hyperparameters) that affect the system’s performance. However, defining a good choice of hyperparameters is a challenging problem. Hyperparameter tuning often requires manual or automated searches to find optimal values. Nonetheless, a noticeable limitation is the high cost of algorithm evaluation for complex models, making the tuning process computationally expensive and time-consuming. In this paper, we propose a framework based on integrating complex event processing and temporal models, to alleviate these trade-offs. Through this combination, it is possible to gain insights about a running RL system efficiently and unobtrusively based on data stream monitoring and to create abstract representations that allow reasoning about the historical behaviour of the RL system. The obtained knowledge is exploited to provide feedback to the RL system for optimising its hyperparameters while making effective use of parallel resources. We introduce a novel history-aware epsilon-greedy logic for hyperparameter optimisation that instead of using static hyperparameters that are kept fixed for the whole training, adjusts the hyperparameters at runtime based on the analysis of the agent’s performance over time windows in a single agent’s lifetime. We tested the proposed approach in a 5G mobile communications case study that uses DQN, a variant of RL, for its decision-making. Our experiments demonstrated the effects of hyperparameter tuning using history on training stability and reward values. The encouraging results show that the proposed history-aware framework significantly improved performance compared to traditional hyperparameter tuning approaches.

arxiv情報

著者 Juan Marcelo Parra-Ullauri,Chen Zhen,Antonio García-Domínguez,Nelly Bencomo,Changgang Zheng,Juan Boubeta-Puig,Guadalupe Ortiz,Shufan Yang
発行日 2023-03-09 11:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク