Point-based Value Iteration for Neuro-Symbolic POMDPs

要約

ニューロシンボリック人工知能は、従来のシンボリック技術とニューラル ネットワークを組み合わせた新興分野です。
本稿では、不確実性の下での逐次的意思決定への応用を検討します。
我々は、ニューラルネットワークを使用して連続状態環境を認識し、記号的に決定を下すエージェントをモデル化する神経記号的部分観察可能マルコフ決定プロセス(NS-POMDP)を導入し、割引された累積報酬の最適化の問題を研究します。
これには、連続状態の信念を超える関数が必要です。そのために、連続状態空間と値ベクトルをカバーする多面体に関して新しい区分的線形凸表現 (P-PWLC) を提案し、ベルマン バックアップをこの表現に拡張します。
値関数の凸性と連続性を証明し、連続状態モデルの基礎となる構造と神経知覚メカニズムを利用することで有限の表現可能性を保証する 2 つの値反復アルゴリズムを提示します。
1 つ目は、Porta et al (2006) の $\alpha$-functions を連続状態空間の P-PWLC 表現に拡張した、古典的な (正確な) 値反復アルゴリズムです。
2 つ目は、NS-HSVI と呼ばれるポイントベース (近似) 方法です。これは、P-PWLC 表現と信念値誘導関数を使用して、粒子ベースと領域ベースの 2 種類の信念に対して下から上から値関数を近似します。

プロトタイプの実装を使用して、(訓練された) ReLU ニューラル ネットワークを知覚機能として使用する 2 つのケース スタディ、動的駐車場、および航空機衝突回避システムについて、(ほぼ) 最適な戦略を合成することによって、アプローチの実際的な適用可能性を示します。
有限状態 POMDP ソルバー SARSOP との実験的な比較により、NS-HSVI が粒子外乱に対してより堅牢であることが実証されています。

要約(オリジナル)

Neuro-symbolic artificial intelligence is an emerging area that combines traditional symbolic techniques with neural networks. In this paper, we consider its application to sequential decision making under uncertainty. We introduce neuro-symbolic partially observable Markov decision processes (NS-POMDPs), which model an agent that perceives a continuous-state environment using a neural network and makes decisions symbolically, and study the problem of optimising discounted cumulative rewards. This requires functions over continuous-state beliefs, for which we propose a novel piecewise linear and convex representation (P-PWLC) in terms of polyhedra covering the continuous-state space and value vectors, and extend Bellman backups to this representation. We prove the convexity and continuity of value functions and present two value iteration algorithms that ensure finite representability by exploiting the underlying structure of the continuous-state model and the neural perception mechanism. The first is a classical (exact) value iteration algorithm extending $\alpha$-functions of Porta et al (2006) to the P-PWLC representation for continuous-state spaces. The second is a point-based (approximate) method called NS-HSVI, which uses the P-PWLC representation and belief-value induced functions to approximate value functions from below and above for two types of beliefs, particle-based and region-based. Using a prototype implementation, we show the practical applicability of our approach on two case studies that employ (trained) ReLU neural networks as perception functions, dynamic car parking and an aircraft collision avoidance system, by synthesising (approximately) optimal strategies. An experimental comparison with the finite-state POMDP solver SARSOP demonstrates that NS-HSVI is more robust to particle disturbances.

arxiv情報

著者 Rui Yan,Gabriel Santos,Gethin Norman,David Parker,Marta Kwiatkowska
発行日 2023-06-30 13:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY パーマリンク