要約
強化学習は、可変ダイナミクスを伴う連続的な意思決定の問題に対して効果的な推論を提供できます。
しかし、実際の実装におけるこのような推論は、報酬関数とそれに対応する最適なポリシーを解釈する際に永続的な課題を引き起こします。
したがって、連続的な意思決定の問題を確率的推論として表すことには、大きな価値がある可能性があります。原則として、この推論は、政策最適化の確率的解釈を示唆しながら確率力学を推論するための多様で強力な数学的ツールを提供するからです。
この研究では、これらの解釈可能性の課題に取り組むために、新しい適応ワッサーシュタイン変分最適化、つまり AWaVO を提案します。
私たちのアプローチは、形式的な手法を使用して、収束保証、トレーニングの透明性、および固有の意思決定解釈の解釈可能性を実現します。
その実用性を実証するために、シミュレーションおよび実際のクアローター タスクにおける最適なグローバル収束率による保証された解釈可能性を紹介します。
TRPO-IPO、PCPO、CRPO などの最先端のベンチマークと比較して、AWaVO が高いパフォーマンスと十分な解釈可能性の間で合理的なトレードオフを提供していることを経験的に検証しています。
要約(オリジナル)
Reinforcement learning can provide effective reasoning for sequential decision-making problems with variable dynamics. Such reasoning in practical implementation, however, poses a persistent challenge in interpreting the reward function and the corresponding optimal policy. Consequently, representing sequential decision-making problems as probabilistic inference can have considerable value, as, in principle, the inference offers diverse and powerful mathematical tools to infer the stochastic dynamics whilst suggesting a probabilistic interpretation of policy optimization. In this study, we propose a novel Adaptive Wasserstein Variational Optimization, namely AWaVO, to tackle these interpretability challenges. Our approach uses formal methods to achieve the interpretability for convergence guarantee, training transparency, and intrinsic decision-interpretation. To demonstrate its practicality, we showcase guaranteed interpretability with an optimal global convergence rate in simulation and in practical quadrotor tasks. In comparison with state-of-the-art benchmarks including TRPO-IPO, PCPO and CRPO, we empirically verify that AWaVO offers a reasonable trade-off between high performance and sufficient interpretability.
arxiv情報
著者 | Yanran Wang,Qiuchen Qian,David Boyle |
発行日 | 2024-06-17 12:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google