要約
環境で人間と一緒にナビゲートするには、エージェントが不確実性の下で推論し、周囲の人々の信念と意図を説明する必要があります。
連続的な意思決定フレームワークの下で、自己中心的なナビゲーションは、自然にマルコフ決定プロセス(MDP)として表現できます。
しかし、社会的航法にはさらに、他者の隠された信念についての推論が必要であり、本質的に部分的に観察可能なマルコフ決定プロセス(POMDP)につながります。
心の理論と認識論的計画に触発された私たちは、(1)社会的航法のための神経協力モデルベースの強化学習アーキテクチャを提案し、部分的に観察可能な環境での信念追跡の課題に対処します。
(2)構造化されたマルチエージェント設定における影響ベースの抽象化(IBA)に関する最近の研究を活用して、信念の推定のためのパースペクティブシフトオペレーター。
要約(オリジナル)
Navigating in environments alongside humans requires agents to reason under uncertainty and account for the beliefs and intentions of those around them. Under a sequential decision-making framework, egocentric navigation can naturally be represented as a Markov Decision Process (MDP). However, social navigation additionally requires reasoning about the hidden beliefs of others, inherently leading to a Partially Observable Markov Decision Process (POMDP), where agents lack direct access to others’ mental states. Inspired by Theory of Mind and Epistemic Planning, we propose (1) a neuro-symbolic model-based reinforcement learning architecture for social navigation, addressing the challenge of belief tracking in partially observable environments; and (2) a perspective-shift operator for belief estimation, leveraging recent work on Influence-based Abstractions (IBA) in structured multi-agent settings.
arxiv情報
著者 | Kevin Alcedo,Pedro U. Lima,Rachid Alami |
発行日 | 2025-03-26 10:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google