Safe Reinforcement Learning as Wasserstein Variational Inference: Formal Methods for Interpretability

要約

強化学習または最適制御は、可変ダイナミクスを伴う連続的な意思決定の問題に対して効果的な推論を提供します。
しかし、実際の実装におけるこのような推論は、報酬関数とそれに対応する最適なポリシーを解釈する際に永続的な課題を引き起こします。
したがって、確率的推論は原則として、報酬設計とポリシーの収束の確率的解釈を示唆しながら、確率的ダイナミクスを推論するための多様で強力な数学的ツールを提供するため、逐次的な意思決定の問題を推論として形式化することには大きな価値があります。
この研究では、逐次的な意思決定におけるこれらの課題に取り組むための新しい適応ワッサーシュタイン変分最適化 (AWaVO) を提案します。
私たちのアプローチは、形式的な手法を利用して、報酬設計の解釈、トレーニング収束の透明性、および逐次決定の確率的解釈を提供します。
実用性を実証するために、シミュレーションだけでなく実際のロボットタスクでもグローバル収束率が保証された収束トレーニングを示し、高いパフォーマンスと保守的な解釈可能性の間の合理的なトレードオフを経験的に検証します。

要約(オリジナル)

Reinforcement Learning or optimal control can provide effective reasoning for sequential decision-making problems with variable dynamics. Such reasoning in practical implementation, however, poses a persistent challenge in interpreting the reward function and corresponding optimal policy. Consequently, formalizing the sequential decision-making problems as inference has a considerable value, as probabilistic inference in principle offers diverse and powerful mathematical tools to infer the stochastic dynamics whilst suggesting a probabilistic interpretation of the reward design and policy convergence. In this study, we propose a novel Adaptive Wasserstein Variational Optimization (AWaVO) to tackle these challenges in sequential decision-making. Our approach utilizes formal methods to provide interpretations of reward design, transparency of training convergence, and probabilistic interpretation of sequential decisions. To demonstrate practicality, we show convergent training with guaranteed global convergence rates not only in simulation but also in real robot tasks, and empirically verify a reasonable tradeoff between high performance and conservative interpretability.

arxiv情報

著者 Yanran Wang,David Boyle
発行日 2024-02-08 18:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク