Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models

要約

この論文では、テーブルトップ シナリオにおけるオープンエンドの対話型ロボット操作のタスクを調査します。
最近の大規模言語モデル (LLM) は、ユーザーの指示に対するロボットの理解を強化しますが、視覚的な基礎が欠如しているため、環境と物理的に対話する能力が制限されます。
これは、ロボットが物理的な作業空間内で操作対象のオブジェクトを見つける必要があるためです。
この目的を達成するために、Polaris と呼ばれるインタラクティブなロボット操作フレームワークを導入します。これは、GPT-4 を地上視覚モデルと併用することで知覚とインタラクションを統合します。
正確な操作のためには、このような接地視覚モデルが、単に画像内でモデルに属するピクセルを識別するのではなく、ターゲット オブジェクトの詳細なオブジェクトの姿勢を生成することが不可欠です。
その結果、我々は新しい Synthetic-to-Real (Syn2Real) 姿勢推定パイプラインを提案します。
このパイプラインは、レンダリングされた合成データをトレーニングに利用し、その後、現実世界の操作タスクに転送されます。
実際のパフォーマンスは、私たちが提案したパイプラインの有効性を示しており、より一般的なカテゴリへの拡張の可能性を強調しています。
さらに、実際のロボット実験では、複数の操作タスクを把握して実行する際のフレームワークの優れたパフォーマンスが実証されました。
これは、テーブルトップを超えたシナリオに一般化できる可能性を示しています。
詳細情報とビデオ結果は、こちらからご覧いただけます: https://star-uu-wang.github.io/Polaris/

要約(オリジナル)

This paper investigates the task of the open-ended interactive robotic manipulation on table-top scenarios. While recent Large Language Models (LLMs) enhance robots’ comprehension of user instructions, their lack of visual grounding constrains their ability to physically interact with the environment. This is because the robot needs to locate the target object for manipulation within the physical workspace. To this end, we introduce an interactive robotic manipulation framework called Polaris, which integrates perception and interaction by utilizing GPT-4 alongside grounded vision models. For precise manipulation, it is essential that such grounded vision models produce detailed object pose for the target object, rather than merely identifying pixels belonging to them in the image. Consequently, we propose a novel Synthetic-to-Real (Syn2Real) pose estimation pipeline. This pipeline utilizes rendered synthetic data for training and is then transferred to real-world manipulation tasks. The real-world performance demonstrates the efficacy of our proposed pipeline and underscores its potential for extension to more general categories. Moreover, real-robot experiments have showcased the impressive performance of our framework in grasping and executing multiple manipulation tasks. This indicates its potential to generalize to scenarios beyond the tabletop. More information and video results are available here: https://star-uu-wang.github.io/Polaris/

arxiv情報

著者 Tianyu Wang,Haitao Lin,Junqiu Yu,Yanwei Fu
発行日 2024-08-15 06:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク