Weathering Ongoing Uncertainty: Learning and Planning in a Time-Varying Partially Observable Environment

要約

最適な意思決定は、不確実で確率的かつ時間とともに変化する環境で動作する自律システムにとって大きな課題となります。
時間の経過に伴う環境の変動は、ミッション完了のためのシステムの最適な意思決定戦略に大きな影響を与える可能性があります。
このような環境をモデル化するために、私たちの研究では、時変マルコフ決定プロセス (TVMDP) の以前の概念と部分可観測性を組み合わせ、時変部分観測可能なマルコフ決定プロセス (TV-POMDP) を導入しました。
我々は、TV-POMDP 内で正確に見積もりと計画を立てるための 2 つのアプローチを提案します。1) メモリ優先状態推定 (MPSE)。重み付けされたメモリを活用して、より正確な時間変化遷移推定を提供します。
2) 時間的制約を考慮しながら長期的な報酬を最適化する MPSE 統合計画戦略。
私たちは、ロボットが部分的に観察可能な時間変化する環境を探索し、シミュレーションとハードウェアを使用して、提案されたフレームワークとアルゴリズムを検証します。
私たちの結果は、標準的な手法よりも優れたパフォーマンスを実証し、確率的、不確実、時間変動する領域におけるフレームワークの有効性を強調しています。

要約(オリジナル)

Optimal decision-making presents a significant challenge for autonomous systems operating in uncertain, stochastic and time-varying environments. Environmental variability over time can significantly impact the system’s optimal decision making strategy for mission completion. To model such environments, our work combines the previous notion of Time-Varying Markov Decision Processes (TVMDP) with partial observability and introduces Time-Varying Partially Observable Markov Decision Processes (TV-POMDP). We propose a two-pronged approach to accurately estimate and plan within the TV-POMDP: 1) Memory Prioritized State Estimation (MPSE), which leverages weighted memory to provide more accurate time-varying transition estimates; and 2) an MPSE-integrated planning strategy that optimizes long-term rewards while accounting for temporal constraint. We validate the proposed framework and algorithms using simulations and hardware, with robots exploring a partially observable, time-varying environments. Our results demonstrate superior performance over standard methods, highlighting the framework’s effectiveness in stochastic, uncertain, time-varying domains.

arxiv情報

著者 Gokul Puthumanaillam,Xiangyu Liu,Negar Mehr,Melkior Ornik
発行日 2024-01-19 17:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク