要約
タイトル:タイプ1糖尿病の人々におけるより安全な血糖コントロールのためのオフライン強化学習
要約:
– エフェクティブなハイブリッドクローズドループシステムの普及は、タイプ1糖尿病の人々のケアにおける重要なマイルストーンとなる。
– これらのデバイスは、血糖値を健康的な範囲内に維持するための最適なインスリン投与量を選択するための単純な制御アルゴリズムを通常使用する。
– オンライン強化学習は、これらのデバイスの血糖コントロールのさらなる向上のための方法として利用されてきた。
– これまでのアプローチは、従来の制御アルゴリズムと比較して、患者のリスクを減らし、目標範囲での時間を改善することが示されているが、学習プロセスでの不安定性により、安全ではない行動の選択が生じることが多い。
– 本研究は、危険な患者との相互作用を必要とせずに効果的な投与方針の開発にオフライン強化学習を使用する評価を示している。
– この論文は、FDA承認済みのUVA / Padovaグルコースダイナミクスシミュレータ内にある30人の仮想患者の血糖管理にBCQ、CQL、TD3-BCの有用性を検討している。
– オンライン強化学習が安定したパフォーマンスを達成するために必要な総トレーニングサンプルの10分の1未満でトレーニングされた場合、この作業は、オフライン強化学習が、最強の状態でアートベースラインに比べて、健康的な血糖範囲での時間を61.6 +/- 0.3%から65.3 +/- 0.5%に大幅に増加させることを示している(p < 0.001)。これは低血糖イベントに関連する増加はない。
- オフライン強化学習は、正しくないボリューム投与、不規則な食事タイミング、圧縮エラーなどの一般的で難しいコントロールシナリオを修正することもできることが示されている。
要約(オリジナル)
The widespread adoption of effective hybrid closed loop systems would represent an important milestone of care for people living with type 1 diabetes (T1D). These devices typically utilise simple control algorithms to select the optimal insulin dose for maintaining blood glucose levels within a healthy range. Online reinforcement learning (RL) has been utilised as a method for further enhancing glucose control in these devices. Previous approaches have been shown to reduce patient risk and improve time spent in the target range when compared to classical control algorithms, but are prone to instability in the learning process, often resulting in the selection of unsafe actions. This work presents an evaluation of offline RL for developing effective dosing policies without the need for potentially dangerous patient interaction during training. This paper examines the utility of BCQ, CQL and TD3-BC in managing the blood glucose of the 30 virtual patients available within the FDA-approved UVA/Padova glucose dynamics simulator. When trained on less than a tenth of the total training samples required by online RL to achieve stable performance, this work shows that offline RL can significantly increase time in the healthy blood glucose range from 61.6 +\- 0.3% to 65.3 +/- 0.5% when compared to the strongest state-of-art baseline (p < 0.001). This is achieved without any associated increase in low blood glucose events. Offline RL is also shown to be able to correct for common and challenging control scenarios such as incorrect bolus dosing, irregular meal timings and compression errors.
arxiv情報
著者 | Harry Emerson,Matthew Guy,Ryan McConville |
発行日 | 2023-05-05 10:04:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI