要約
自律的なエージェントに、自身の結果と不確実性を予測する能力を与えることで、能力を伝達し、より安全に使用できるようになります。
これは、エージェント システムの学習された世界モデルを使用して、長期にわたるエージェントの完全な軌跡を予測することによって実現されます。
実世界のシステムには、偶然性と認識論的な不確実性の両方の重要なソースが含まれており、それらは軌道予測において時間の経過とともに複合し、相互作用します。
学習プロセス中に認識論的不確実性の影響を取り入れながら、偶然的不確実性を定量化する深い生成世界モデルを開発します。
2 つの強化学習問題について、不確実性モデルが完全な軌道範囲にわたって較正された結果の不確実性推定値を生成することを示します。
要約(オリジナル)
Giving autonomous agents the ability to forecast their own outcomes and uncertainty will allow them to communicate their competencies and be used more safely. We accomplish this by using a learned world model of the agent system to forecast full agent trajectories over long time horizons. Real world systems involve significant sources of both aleatoric and epistemic uncertainty that compound and interact over time in the trajectory forecasts. We develop a deep generative world model that quantifies aleatoric uncertainty while incorporating the effects of epistemic uncertainty during the learning process. We show on two reinforcement learning problems that our uncertainty model produces calibrated outcome uncertainty estimates over the full trajectory horizon.
arxiv情報
著者 | Aastha Acharya,Rebecca Russell,Nisar R. Ahmed |
発行日 | 2023-02-17 03:24:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google