要約
強化学習は、以前の経験から学習し、適応的な意思決定を行うことができるため、監視アプリケーションにますます適用されています。
しかし、既存の機械学習ベースの健全性監視アプリケーションは、ほとんどがラベルに基づいてトレーニングされた教師あり学習アルゴリズムであり、不確実な複雑な環境では適応的な意思決定を行うことができません。
この研究では、時系列予測環境で複数の RL エージェントを使用する、新しい汎用システムである予測深層強化学習 (PDRL) を提案します。
提案された汎用フレームワークは、仮想 Deep Q ネットワーク (DQN) エージェントに対応し、明確に定義された報酬ポリシーを使用して複雑な環境の予測される将来の状態を監視し、エージェントが報酬を最大化しながら既存の知識を学習できるようにします。
提案されたフレームワークの評価プロセスでは、BiLSTM モデルを使用して予測される被験者の将来の心拍数、呼吸、体温を監視するために 3 つの DRL エージェントが導入されました。
反復のたびに、3 人のエージェントは関連するパターンを学習することができ、累積報酬は徐々に増加しました。
3 つの監視エージェントすべてのベースライン モデルを上回りました。
提案された PDRL フレームワークは、時系列予測プロセスにおいて最先端のパフォーマンスを達成できます。
PDRL フレームワークで提案されている DRL エージェントと深層学習モデルは、交通や天気などの他の予測アプリケーションに転移学習を実装し、その状態を監視するようにカスタマイズされています。
PDRL フレームワークは、将来の交通状況や天気予報を学習することができ、累積報酬はエピソードごとに徐々に増加します。
要約(オリジナル)
Reinforcement learning has been increasingly applied in monitoring applications because of its ability to learn from previous experiences and can make adaptive decisions. However, existing machine learning-based health monitoring applications are mostly supervised learning algorithms, trained on labels and they cannot make adaptive decisions in an uncertain complex environment. This study proposes a novel and generic system, predictive deep reinforcement learning (PDRL) with multiple RL agents in a time series forecasting environment. The proposed generic framework accommodates virtual Deep Q Network (DQN) agents to monitor predicted future states of a complex environment with a well-defined reward policy so that the agent learns existing knowledge while maximizing their rewards. In the evaluation process of the proposed framework, three DRL agents were deployed to monitor a subject’s future heart rate, respiration, and temperature predicted using a BiLSTM model. With each iteration, the three agents were able to learn the associated patterns and their cumulative rewards gradually increased. It outperformed the baseline models for all three monitoring agents. The proposed PDRL framework is able to achieve state-of-the-art performance in the time series forecasting process. The proposed DRL agents and deep learning model in the PDRL framework are customized to implement the transfer learning in other forecasting applications like traffic and weather and monitor their states. The PDRL framework is able to learn the future states of the traffic and weather forecasting and the cumulative rewards are gradually increasing over each episode.
arxiv情報
著者 | Thanveer Shaik,Xiaohui Tao,Lin Li,Haoran Xie,U R Acharya,Raj Gururajan,Xujuan Zhou |
発行日 | 2023-09-19 12:35:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google