要約
空間インテリジェンスは、具体化されたAIの重要なコンポーネントであり、ロボットが環境を理解し、相互作用するよう促進します。
最近の進歩により、VLMがオブジェクトの位置と位置関係を知覚する能力が向上しましたが、オブジェクトの方向を正確に理解する能力はまだ不足しています。
この制限に対処するには、幾何学的な推論だけでなく、オリエンテーションを表現する表現力豊かで直感的な方法も必要です。
これに関連して、自然言語は標準的なフレームよりも柔軟な表現スペースを提供し、指導に従うロボットシステムに特に適していることを提案します。
この論文では、セマンティックオリエンテーションの概念を紹介します。これは、自然言語を使用してリファレンスフレームフリーの方法でオブジェクトの向きを定義します(例えば、USBまたは「ハンドル」方向の「「プラグイン」の方向」
ナイフの)。
これをサポートするために、Orientext300Kを構築します。これは、幾何学的理解を機能的なセマンティクスにリンクするセマンティックオリエンテーションが注釈された3Dモデルの大規模なデータセットです。
セマンティックオリエンテーションをVLMシステムに統合することにより、ロボットが位置的制約と方向的な制約の両方で操作アクションを生成できるようにします。
シミュレーションと現実の世界での広範な実験は、このアプローチがロボット操作機能、たとえばOpen6Dorの48.7%の精度、74.9%の精度をよりシンプルで大幅に向上させることを示しています。
要約(オリジナル)
Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ”plug-in” direction of a USB or the ”handle” direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.
arxiv情報
著者 | Zekun Qi,Wenyao Zhang,Yufei Ding,Runpei Dong,Xinqiang Yu,Jingwen Li,Lingyun Xu,Baoyu Li,Xialin He,Guofan Fan,Jiazhao Zhang,Jiawei He,Jiayuan Gu,Xin Jin,Kaisheng Ma,Zhizheng Zhang,He Wang,Li Yi |
発行日 | 2025-02-18 18:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google