要約
このペーパーでは、3Dデカルト空間でのロボット操作のための言語モデルの空間的推論能力を強化するために設計された新しい方法論であるAlphaspaceを紹介します。
Alphaspaceは、粗いレベルと細かいレベルの両方で空間情報をコードする階層セマンティクスベースのトークン化戦略を採用しています。
私たちのアプローチは、構造化されたトークンを介した属性、位置、および高さ情報を備えたオブジェクトを表し、従来のビジョンベースの埋め込みに頼らずに正確な空間的推論を可能にします。
このアプローチにより、LLMSはオブジェクトを特定(x、y、z)座標に配置することにより、オブジェクトを正確に操作できます。
実験結果は、Alphaspaceが操作タスクを改善するための有望な可能性を示しており、GPT-4Oで37.5%、Claude 3.5 Sonnetで29.17%であるのに対し、66.67%の合計精度を達成することを示唆しています。
これらの結果は、操作タスクの構造化された空間エンコードの可能性を示しており、さらなる調査を保証します。
要約(オリジナル)
This paper presents AlphaSpace, a novel methodology designed to enhance the spatial reasoning capabilities of language models for robotic manipulation in 3D Cartesian space. AlphaSpace employs a hierarchical semantics-based tokenization strategy that encodes spatial information at both coarse and fine-grained levels. Our approach represents objects with their attributes, positions, and height information through structured tokens, enabling precise spatial reasoning without relying on traditional vision-based embeddings. This approach enables LLMs to accurately manipulate objects by positioning them at specific (x, y, z) coordinates. Experimental results suggest that AlphaSpace demonstrates promising potential for improving manipulation tasks, achieving a total accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5 Sonnet. These results demonstrate the potential of structured spatial encoding for manipulation tasks and warrant further exploration.
arxiv情報
著者 | Alan Dao,Dinh Bach Vu,Bui Quang Huy |
発行日 | 2025-03-27 06:39:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google