Hybrid Control Policy for Artificial Pancreas via Ensemble Deep Reinforcement Learning

要約

目的: 人工膵臓 (AP) は、1 型糖尿病 (T1DM) 患者の閉ループ血糖制御を達成する上で有望な可能性を示しています。
しかし、AP の効果的な制御ポリシーを設計することは、複雑な生理学的プロセス、インスリン反応の遅延、および不正確なグルコース測定のため、依然として困難です。
モデル予測制御 (MPC) は、動的モデルと安全制約を通じて安全性と安定性を提供しますが、個別化に欠けており、予告なしの食事によって悪影響を受けます。
逆に、深層強化学習 (DRL) はパーソナライズされた適応戦略を提供しますが、分布の変化と大量のデータ要件という課題に直面しています。
方法: 上記の課題に対処するために、人工膵臓のハイブリッド制御政策 (HyCPAP) を提案します。
HyCPAP は、MPC ポリシーとアンサンブル DRL ポリシーを組み合わせて、両方のポリシーの長所を活用しながら、それぞれの制限を補います。
現実世界の環境での AP システムの迅速な導入を促進するために、当社はさらにメタ学習技術を HyCPAP に組み込み、これまでの経験と患者が共有する知識を活用して、利用可能なデータが限られている新しい患者に迅速に適応できるようにします。
結果: FDA が承認した UVA/Padova T1DM シミュレーターを使用して、3 つのシナリオにわたって広範な実験を実施しました。
私たちのアプローチは、望ましい正常血糖範囲で費やす時間の割合を最も高くし、低血糖の発生を最小限に抑えます。
結論: この結果は、T1DM 患者における閉ループ血糖管理における本発明の方法の優位性を明確に示しています。
重要性: この研究は、AP システムの新しい制御ポリシーを提示し、効率的な閉ループ グルコース制御のための提案された方法の大きな可能性を確認します。

要約(オリジナル)

Objective: The artificial pancreas (AP) has shown promising potential in achieving closed-loop glucose control for individuals with type 1 diabetes mellitus (T1DM). However, designing an effective control policy for the AP remains challenging due to the complex physiological processes, delayed insulin response, and inaccurate glucose measurements. While model predictive control (MPC) offers safety and stability through the dynamic model and safety constraints, it lacks individualization and is adversely affected by unannounced meals. Conversely, deep reinforcement learning (DRL) provides personalized and adaptive strategies but faces challenges with distribution shifts and substantial data requirements. Methods: We propose a hybrid control policy for the artificial pancreas (HyCPAP) to address the above challenges. HyCPAP combines an MPC policy with an ensemble DRL policy, leveraging the strengths of both policies while compensating for their respective limitations. To facilitate faster deployment of AP systems in real-world settings, we further incorporate meta-learning techniques into HyCPAP, leveraging previous experience and patient-shared knowledge to enable fast adaptation to new patients with limited available data. Results: We conduct extensive experiments using the FDA-accepted UVA/Padova T1DM simulator across three scenarios. Our approaches achieve the highest percentage of time spent in the desired euglycemic range and the lowest occurrences of hypoglycemia. Conclusion: The results clearly demonstrate the superiority of our methods for closed-loop glucose management in individuals with T1DM. Significance: The study presents novel control policies for AP systems, affirming the great potential of proposed methods for efficient closed-loop glucose control.

arxiv情報

著者 Wenzhou Lv,Tianyu Wu,Luolin Xiong,Liang Wu,Jian Zhou,Yang Tang,Feng Qian
発行日 2023-07-14 00:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク