Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning

要約

このペーパーは、動的および乱雑な環境での自律的なナビゲーションに向けて大規模な言語モデル(LLM)によって力を与えられたモーションエージェントを進め、LLMの空間的推論に関する第1および最近の独創的ではあるが限られた研究を大幅に上回ります。
具体的には、LLMSを空間的な推論者として調査して、均一にエンコードする環境(例えば、実際の屋内フロアプラン)、動的障害物である可能性のあるエージェント、および言語トークンに似た離散トークンとしてのエージェントによってLLMSを調査します。
当社のトレーニングフリーフレームワークは、再訓練や微調整なしでマルチエージェント調整、閉ループリプラン、および動的障害物回避をサポートしています。
LLMは、テキストベースのインタラクションのみを使用してエージェント、タスク、環境間で一般化し、シミュレーションと具体化されたシステムの両方で意味的に接地されたインタラクティブナビゲーションの新しい可能性を開きます。

要約(オリジナル)

This paper advances motion agents empowered by large language models (LLMs) toward autonomous navigation in dynamic and cluttered environments, significantly surpassing first and recent seminal but limited studies on LLM’s spatial reasoning, where movements are restricted in four directions in simple, static environments in the presence of only single agents much less multiple agents. Specifically, we investigate LLMs as spatial reasoners to overcome these limitations by uniformly encoding environments (e.g., real indoor floorplans), agents which can be dynamic obstacles and their paths as discrete tokens akin to language tokens. Our training-free framework supports multi-agent coordination, closed-loop replanning, and dynamic obstacle avoidance without retraining or fine-tuning. We show that LLMs can generalize across agents, tasks, and environments using only text-based interactions, opening new possibilities for semantically grounded, interactive navigation in both simulation and embodied systems.

arxiv情報

著者 Yubo Zhao,Qi Wu,Yifan Wang,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-06-05 12:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク