ToMCAT: Theory-of-Mind for Cooperative Agents in Teams via Multiagent Diffusion Policies

要約

このペーパーでは、Tomcat(チームの協同エージェントの理論の理論)を紹介します。これは、TOMコンディショニングされた軌跡を生成するための新しいフレームワークです。
メタ学習メカニズムを組み合わせて、チームメイトの根底にある目標と将来の行動を推論するトムと、エージェントの目標とチームメイトの特性の両方を条件付けたエージェントとそのチームメイトの計画を生み出すマルチエージェントの除去拡散モデルと、
トム経由で計算されたとおり。
以前に生成された計画と世界の現在の状態との相違を検出するたびに、拡散モデルから新しい軌跡(REPLAN)を動的にサンプリングするオンライン計画システムを実装しました。
シミュレートされた調理ドメインでTomcatを使用していくつかの実験を実施しました。
私たちの結果は、チームのパフォーマンスを犠牲にすることなくリソースの使用を減らすことにおける動的な再生メカニズムの重要性を強調しています。
また、トムの推論と組み合わせたエピソードの過程でエージェントによって収集された世界とチームメイトの行動に関する最近の観察は、チームメイトへの動的な適応のためのチームを意識する計画を生み出すために重要であることを示しています。

要約(オリジナル)

In this paper we present ToMCAT (Theory-of-Mind for Cooperative Agents in Teams), a new framework for generating ToM-conditioned trajectories. It combines a meta-learning mechanism, that performs ToM reasoning over teammates’ underlying goals and future behavior, with a multiagent denoising-diffusion model, that generates plans for an agent and its teammates conditioned on both the agent’s goals and its teammates’ characteristics, as computed via ToM. We implemented an online planning system that dynamically samples new trajectories (replans) from the diffusion model whenever it detects a divergence between a previously generated plan and the current state of the world. We conducted several experiments using ToMCAT in a simulated cooking domain. Our results highlight the importance of the dynamic replanning mechanism in reducing the usage of resources without sacrificing team performance. We also show that recent observations about the world and teammates’ behavior collected by an agent over the course of an episode combined with ToM inferences are crucial to generate team-aware plans for dynamic adaptation to teammates, especially when no prior information is provided about them.

arxiv情報

著者 Pedro Sequeira,Vidyasagar Sadhu,Melinda Gervasio
発行日 2025-02-25 18:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク