要約
多くの実際のアプリケーションでは、意思決定プロセスでは、情報を取得するコストと情報が提供するメリットのバランスを取る必要があります。
従来の制御システムは多くの場合、完全な可観測性を前提としていますが、観測に費用がかかる場合には非現実的な前提となります。
私たちは、ポリシーが真の状態の可観測性に影響を与える観測制約マルコフ決定プロセス (OCMDP) を導入することで、このようなコスト重視の環境で観測と制御の戦略を同時に学習するという課題に取り組みます。
観察と制御アクションの組み合わせから生じる複雑さを管理するために、ポリシーの検知コンポーネントと制御コンポーネントを分離する、反復的なモデルフリーの深層強化学習アルゴリズムを開発します。
この分解により、環境のダイナミクスの知識を必要とせずに、いつ何を観察するかに焦点を当て、最適な制御アクションを決定することで、拡張されたアクション空間での効率的な学習が可能になります。
HeartPole を使用して、シミュレーションされた診断タスクと現実的な医療環境に対するアプローチを検証します。
両方のシナリオを考慮すると、実験結果は、私たちのモデルが平均して観測コストの大幅な削減を達成し、効率においてベースライン手法を大幅に上回っていることを示しています。
要約(オリジナル)
In many practical applications, decision-making processes must balance the costs of acquiring information with the benefits it provides. Traditional control systems often assume full observability, an unrealistic assumption when observations are expensive. We tackle the challenge of simultaneously learning observation and control strategies in such cost-sensitive environments by introducing the Observation-Constrained Markov Decision Process (OCMDP), where the policy influences the observability of the true state. To manage the complexity arising from the combined observation and control actions, we develop an iterative, model-free deep reinforcement learning algorithm that separates the sensing and control components of the policy. This decomposition enables efficient learning in the expanded action space by focusing on when and what to observe, as well as determining optimal control actions, without requiring knowledge of the environment’s dynamics. We validate our approach on a simulated diagnostic task and a realistic healthcare environment using HeartPole. Given both scenarios, the experimental results demonstrate that our model achieves a substantial reduction in observation costs on average, significantly outperforming baseline methods by a notable margin in efficiency.
arxiv情報
著者 | Taiyi Wang,Jianheng Liu,Bryan Lee,Zhihao Wu,Yu Wu |
発行日 | 2024-11-12 12:03:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google