要約
強化学習 (RL) の安全な現実世界への展開を促進することを目的として、安全な RL に関する研究は近年大幅に進歩しました。
しかし、既存の文献のほとんどは依然として、トレーニング中に安全予算の危険な違反が発生する可能性が高いオンライン環境に焦点を当てています。
さらに、多くの実世界のアプリケーションでは、学習されたポリシーは、動的に決定された安全バジェット (つまり、制約しきい値) にリアルタイムで応答する必要があります。
本稿では、オフライン環境における上記のリアルタイム予算制約問題に焦点を当て、この問題に軌跡分布の観点からアプローチする新たな解決策として、軌跡ベースのリアルタイム予算推論(TREBI)を提案する。
理論的には、オフライン設定下でのエピソード報酬とコストの推定の誤差限界を証明し、TREBI のパフォーマンス保証を提供します。
幅広いシミュレーション タスクと実際の大規模な広告アプリケーションに関する実証結果は、オフライン設定下でリアルタイムの予算制約問題を解決する TREBI の能力を実証しています。
要約(オリジナル)
Aiming at promoting the safe real-world deployment of Reinforcement Learning (RL), research on safe RL has made significant progress in recent years. However, most existing works in the literature still focus on the online setting where risky violations of the safety budget are likely to be incurred during training. Besides, in many real-world applications, the learned policy is required to respond to dynamically determined safety budgets (i.e., constraint threshold) in real time. In this paper, we target at the above real-time budget constraint problem under the offline setting, and propose Trajectory-based REal-time Budget Inference (TREBI) as a novel solution that approaches this problem from the perspective of trajectory distribution. Theoretically, we prove an error bound of the estimation on the episodic reward and cost under the offline setting and thus provide a performance guarantee for TREBI. Empirical results on a wide range of simulation tasks and a real-world large-scale advertising application demonstrate the capability of TREBI in solving real-time budget constraint problems under offline settings.
arxiv情報
著者 | Qian Lin,Bo Tang,Zifan Wu,Chao Yu,Shangqin Mao,Qianlong Xie,Xingxing Wang,Dong Wang |
発行日 | 2023-06-01 12:19:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google