Dynamic Path Navigation for Motion Agents with LLM Reasoning

要約

大規模な言語モデル(LLMS)は、強力な一般化可能な推論と計画機能を実証しています。
ただし、空間経路計画と障害のない軌跡の生成におけるそれらの効率は未把握のままです。
NavigationのLLMを活用することは、目に見えないシナリオを処理し、ユーザーエージェントの相互作用をサポートし、複雑なシステム全体でグローバルな制御を提供するLLMSの能力を考慮して、重大な可能性を保持し、エージェント計画とヒューマノイドモーション生成に適しています。
このドメインの最初の研究の1つとして、データセットを構築し、評価プロトコルを提案することにより、LLMSのゼロショットナビゲーションとパス生成機能を調査します。
具体的には、直線で接続されたアンカーポイントを使用してパスを表し、さまざまな方向に動きを可能にします。
このアプローチは、LLMのシンプルで直感的なままでありながら、以前の方法と比較して、より柔軟性と実用性を高めます。
この方法でタスクが十分に構築されている場合、現代のLLMは、ターゲットに到達するために生成された動きで自律的に操作を改良しながら、障害を回避するのにかなりの計画習熟度を示すことを実証します。
さらに、静的環境で相互作用する単一のLLMモーションエージェントのこの空間的推論能力は、動的環境でのマルチモーションエージェント調整でシームレスに一般化できます。
シングルステップの計画やローカルポリシーに依存する従来のアプローチとは異なり、トレーニングなしのLLMベースの方法により、グローバルで動的な閉ループ計画、および衝突問題の自律的に解決することができます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong generalizable reasoning and planning capabilities. However, their efficacies in spatial path planning and obstacle-free trajectory generation remain underexplored. Leveraging LLMs for navigation holds significant potential, given LLMs’ ability to handle unseen scenarios, support user-agent interactions, and provide global control across complex systems, making them well-suited for agentic planning and humanoid motion generation. As one of the first studies in this domain, we explore the zero-shot navigation and path generation capabilities of LLMs by constructing a dataset and proposing an evaluation protocol. Specifically, we represent paths using anchor points connected by straight lines, enabling movement in various directions. This approach offers greater flexibility and practicality compared to previous methods while remaining simple and intuitive for LLMs. We demonstrate that, when tasks are well-structured in this manner, modern LLMs exhibit substantial planning proficiency in avoiding obstacles while autonomously refining navigation with the generated motion to reach the target. Further, this spatial reasoning ability of a single LLM motion agent interacting in a static environment can be seamlessly generalized in multi-motion agents coordination in dynamic environments. Unlike traditional approaches that rely on single-step planning or local policies, our training-free LLM-based method enables global, dynamic, closed-loop planning, and autonomously resolving collision issues.

arxiv情報

著者 Yubo Zhao,Qi Wu,Yifan Wang,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-03-10 13:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク