AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning

要約

このホワイトペーパーでは、3Dデカルトスペースナビゲーションの大規模な言語モデル(LLMS)の空間推論能力を強化するために設計された新しい方法論であるAlphaspaceを紹介します。
Alphaspaceは、セマンティクスベースのトークン化戦略を採用し、特殊なセマンティックトークンを介して高さ情報をエンコードし、主にシンボリックな合成推論データを統合します。
このアプローチにより、LLMは特定の[x、y、z]座標に配置することにより、オブジェクトを正確に操作できます。
実験結果は、Alphaspaceが操作サブタスクで既存のモデルを大幅に上回り、GPT-4Oで37.5%、Claude 3.5 Sonnetで29.17%であるのに対し、66.67%の合計精度を達成することを示しています。

要約(オリジナル)

This paper presents AlphaSpace, a novel methodology designed to enhance the spatial reasoning capabilities of large language models (LLMs) for 3D Cartesian space navigation. AlphaSpace employs a semantics-based tokenization strategy, encoding height information through specialized semantic tokens, and integrates primarily symbolic synthetic reasoning data. This approach enables LLMs to accurately manipulate objects by positioning them at specific [x, y, z] coordinates. Experimental results demonstrate that AlphaSpace significantly outperforms existing models on manipulation subtasks, achieving a total accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5 Sonnet.

arxiv情報

著者 Alan Dao,Dinh Bach Vu,Bui Quang Huy
発行日 2025-03-24 15:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク