SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning

要約

空間的推論は、具体化されたAI研究において重要な問題です。
補足的な空間データと微調整を通じて空間推論能力を高める努力は、主に言語ベースの出力への依存により、複雑な具体化されたタスクに対処する際に制限され、効果がないことが証明されています。
一部のアプローチでは、この問題を軽減するためのポイントベースのアクションスペースが導入されていますが、複雑な環境内でより複雑なタスクを管理するのに不足しています。
この欠陥は、ビジョン言語モデル(VLM)の基本的な強みである固有の思考と推論能力を完全に活用できなかったことから生じます。
これらの制限に対処するために、VLMの空間推論能力を強化するために特別に設計されたSpatialCotという名前の新しいアプローチを提案します。
私たちのアプローチは2つの段階で構成されています。空間座標双方向アラインメントは、視覚言語の入力を空間座標と整列させ、高度な空間推論のための言語モデルの推論能力を活用すると考えられたチェーンの空間接地です。
シミュレーションと現実世界の設定の両方で、挑戦的なナビゲーションおよび操作タスクに関するSpatialCotを評価します。
実験結果は、私たちの方法が両方のタスクで以前の最先端のアプローチを大幅に上回ることを示しています。

要約(オリジナル)

Spatial reasoning is an essential problem in embodied AI research. Efforts to enhance spatial reasoning abilities through supplementary spatial data and fine-tuning have proven limited and ineffective when addressing complex embodied tasks, largely due to their dependence on language-based outputs. While some approaches have introduced a point-based action space to mitigate this issue, they fall short in managing more intricate tasks within complex environments. This deficiency arises from their failure to fully exploit the inherent thinking and reasoning capabilities that are fundamental strengths of Vision-Language Models (VLMs). To address these limitations, we propose a novel approach named SpatialCoT, specifically designed to bolster the spatial reasoning capabilities of VLMs. Our approach comprises two stages: spatial coordinate bi-directional alignment, which aligns vision-language inputs with spatial coordinates, and chain-of-thought spatial grounding, which harnesses the reasoning capabilities of language models for advanced spatial reasoning. We evaluate SpatialCoT on challenging navigation and manipulation tasks, both in simulation and real-world settings. Experimental results demonstrate that our method significantly outperforms previous state-of-the-art approaches in both tasks.

arxiv情報

著者 Yuecheng Liu,Dafeng Chi,Shiguang Wu,Zhanguang Zhang,Yaochen Hu,Lingfeng Zhang,Yingxue Zhang,Shuang Wu,Tongtong Cao,Guowei Huang,Helong Huang,Guangjian Tian,Weichao Qiu,Xingyue Quan,Jianye Hao,Yuzheng Zhuang
発行日 2025-01-23 02:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク