要約
安全な意思決定には長期リスクを正確に見積もることが重要ですが、まれなリスク事象や長期的な軌跡からのサンプリングには法外なコストがかかる可能性があります。
リスク勾配は学習および制御方法の多くの一次手法で使用できますが、微小な除数によりサンプリング ノイズが大幅に増幅される可能性があるため、モンテカルロ (MC) 法を使用して勾配推定値を取得するのは困難です。
このギャップを動機として、十分なリスクイベントのない短期サンプルを使用して長期リスク確率とその勾配を評価する効率的な方法を提案します。
まず、4 種類の長期リスク確率が特定の偏微分方程式 (PDE) の解であることを導き出します。
次に、データと物理情報を統合する物理情報学習手法 (前述の PDE) を提案します。
物理情報は、利用可能なデータを超えて情報を伝播し、利用可能なデータを超えて証明可能な一般化を取得するのに役立ちます。これにより、安全な事象の短期サンプルを使用して長期リスクを推定できるようになります。
最後に、提案された手法がサンプル効率を向上させ、目に見えない領域までよく一般化し、システムパラメータの変化に適応することをシミュレーションで実証します。
要約(オリジナル)
Accurate estimate of long-term risk is critical for safe decision-making, but sampling from rare risk events and long-term trajectories can be prohibitively costly. Risk gradient can be used in many first-order techniques for learning and control methods, but gradient estimate is difficult to obtain using Monte Carlo (MC) methods because the infinitesimal divisor may significantly amplify sampling noise. Motivated by this gap, we propose an efficient method to evaluate long-term risk probabilities and their gradients using short-term samples without sufficient risk events. We first derive that four types of long-term risk probability are solutions of certain partial differential equations (PDEs). Then, we propose a physics-informed learning technique that integrates data and physics information (aforementioned PDEs). The physics information helps propagate information beyond available data and obtain provable generalization beyond available data, which in turn enables long-term risk to be estimated using short-term samples of safe events. Finally, we demonstrate in simulation that the proposed technique has improved sample efficiency, generalizes well to unseen regions, and adapts to changing system parameters.
arxiv情報
著者 | Zhuoyuan Wang,Albert Chern,Yorie Nakahira |
発行日 | 2024-07-15 16:47:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google