要約
空間推論は、身体化された AI 研究において不可欠な問題です。
補足的な空間データと微調整によって空間推論能力を強化する取り組みは、主に言語ベースの出力に依存しているため、複雑な身体化されたタスクに対処する場合には限界があり、効果が低いことが判明しています。
この問題を軽減するためにポイントベースのアクション スペースを導入したアプローチもありますが、複雑な環境内でより複雑なタスクを管理するには不十分です。
この欠陥は、視覚言語モデル (VLM) の基本的な長所である固有の思考および推論能力を十分に活用できていないことから生じます。
これらの制限に対処するために、私たちは、特に VLM の空間推論機能を強化するように設計された、SpatialCoT と呼ばれる新しいアプローチを提案します。
私たちのアプローチは 2 つの段階で構成されています。1 つは視覚言語入力を空間座標と一致させる空間座標の双方向アライメント、もう 1 つは高度な空間推論のために言語モデルの推論機能を利用する思考連鎖の空間グラウンディングです。
私たちは、シミュレーションと現実世界の両方の設定で、困難なナビゲーションと操作のタスクについて SpatialCoT を評価します。
実験結果は、私たちの方法が両方のタスクにおいて以前の最先端のアプローチを大幅に上回ることを示しています。
要約(オリジナル)
Spatial reasoning is an essential problem in embodied AI research. Efforts to enhance spatial reasoning abilities through supplementary spatial data and fine-tuning have proven limited and ineffective when addressing complex embodied tasks, largely due to their dependence on language-based outputs. While some approaches have introduced a point-based action space to mitigate this issue, they fall short in managing more intricate tasks within complex environments. This deficiency arises from their failure to fully exploit the inherent thinking and reasoning capabilities that are fundamental strengths of Vision-Language Models (VLMs). To address these limitations, we propose a novel approach named SpatialCoT, specifically designed to bolster the spatial reasoning capabilities of VLMs. Our approach comprises two stages: spatial coordinate bi-directional alignment, which aligns vision-language inputs with spatial coordinates, and chain-of-thought spatial grounding, which harnesses the reasoning capabilities of language models for advanced spatial reasoning. We evaluate SpatialCoT on challenging navigation and manipulation tasks, both in simulation and real-world settings. Experimental results demonstrate that our method significantly outperforms previous state-of-the-art approaches in both tasks.
arxiv情報
著者 | Yuecheng Liu,Dafeng Chi,Shiguang Wu,Zhanguang Zhang,Yaochen Hu,Lingfeng Zhang,Yingxue Zhang,Shuang Wu,Tongtong Cao,Guowei Huang,Helong Huang,Guangjian Tian,Weichao Qiu,Xingyue Quan,Jianye Hao,Yuzheng Zhuang |
発行日 | 2025-01-22 08:36:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google