Accountability in Offline Reinforcement Learning: Explaining Decisions with a Corpus of Examples

要約

意思決定システムにおけるオフライン データを使用したコントローラーの学習は、現実世界のシステムでのアプリケーションのリスクを軽減できる可能性があるため、重要な研究分野です。
しかし、医療のような責任が重視される環境では、意思決定の責任が最も重要であるにもかかわらず、文献では十分に取り上げられていません。
このペーパーでは、オフライン データセットをデシジョン コーパスとして使用し、コーパス サブセットと呼ばれる、カスタマイズされたサンプルの選択に基づいて責任のある制御を実行する、責任のあるオフライン コントローラー (AOC) を紹介します。
AOC は低データのシナリオで効果的に動作し、厳密にオフラインの模倣設定に拡張でき、保存性と適応性の両方の品質を示します。
私たちは、シミュレーションと現実世界の医療シナリオの両方で AOC のパフォーマンスを評価し、説明責任を維持しながらオフライン制御タスクを高レベルのパフォーマンスで管理する能力を強調します。

要約(オリジナル)

Learning controllers with offline data in decision-making systems is an essential area of research due to its potential to reduce the risk of applications in real-world systems. However, in responsibility-sensitive settings such as healthcare, decision accountability is of paramount importance, yet has not been adequately addressed by the literature. This paper introduces the Accountable Offline Controller (AOC) that employs the offline dataset as the Decision Corpus and performs accountable control based on a tailored selection of examples, referred to as the Corpus Subset. AOC operates effectively in low-data scenarios, can be extended to the strictly offline imitation setting, and displays qualities of both conservation and adaptability. We assess AOC’s performance in both simulated and real-world healthcare scenarios, emphasizing its capability to manage offline control tasks with high levels of performance while maintaining accountability.

arxiv情報

著者 Hao Sun,Alihan Hüyük,Daniel Jarrett,Mihaela van der Schaar
発行日 2023-10-27 16:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク