Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian Score Climbing

要約

動的システムの確率的最適制御は、逐次的な意思決定における重要な課題です。
最近、推論としての制御アプローチがかなりの成功を収めており、探索と悪用のジレンマに対処する実行可能なリスクに敏感なフレームワークを提供しています。
それにもかかわらず、これらの手法の大部分は、推論と制御の二重性を呼び出して、強化学習フレームワーク内で対処される変更されたリスク目標を導き出すだけです。
この論文では、条件付き粒子フィルターから抽出されたサンプルの下で上昇するマルコフ スコアとしてリスクに敏感な確率的制御を構成することにより、新しい視点を導入します。
私たちのアプローチは、純粋に推論中心ではありますが、最適な重要度の重み付けと明示的な値関数の学習を行わず、勾配ベースのポリシー最適化に対して漸近的に不偏な推定を提供します。
私たちの方法論を検証するために、それをニューラルの非ガウス フィードバック ポリシーを学習するタスクに適用し、確率力学システムの数値ベンチマークに対するその有効性を示します。

要約(オリジナル)

Stochastic optimal control of dynamical systems is a crucial challenge in sequential decision-making. Recently, control-as-inference approaches have had considerable success, providing a viable risk-sensitive framework to address the exploration-exploitation dilemma. Nonetheless, a majority of these techniques only invoke the inference-control duality to derive a modified risk objective that is then addressed within a reinforcement learning framework. This paper introduces a novel perspective by framing risk-sensitive stochastic control as Markovian score climbing under samples drawn from a conditional particle filter. Our approach, while purely inference-centric, provides asymptotically unbiased estimates for gradient-based policy optimization with optimal importance weighting and no explicit value function learning. To validate our methodology, we apply it to the task of learning neural non-Gaussian feedback policies, showcasing its efficacy on numerical benchmarks of stochastic dynamical systems.

arxiv情報

著者 Hany Abdulsamad,Sahel Iqbal,Adrien Corenflos,Simo Särkkä
発行日 2023-12-21 16:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク