Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds

要約

近年、深層学習と大規模データセットの最新技術により、3D インスタンスのセグメンテーション、姿勢推定、ロボット工学が目覚ましい進歩を遂げました。
これにより、3D シーンでの直接の正確な検出、オブジェクトと環境を認識した把握予測、および堅牢で再現可能なロボット操作が可能になります。
この研究は、人間中心の環境におけるロボットの相互作用と操作のための包括的なフレームワークに、これらの最近の手法を統合することを目的としています。
具体的には、物体の動的なピッキングと引き出しの開閉を実証するために、把握姿勢推定と並行して、オープン語彙インスタンスのセグメンテーションに汎用 3D スキャナからの 3D 再構成を活用します。
動的オブジェクトの取得と引き出しのオープンを含む 2 セットの実世界実験でモデルのパフォーマンスと堅牢性を示し、それぞれ 51% と 82% の成功率を報告しました。
私たちのフレームワークのコードとビデオは、https://spot-compose.github.io/ で入手できます。

要約(オリジナル)

In recent years, modern techniques in deep learning and large-scale datasets have led to impressive progress in 3D instance segmentation, grasp pose estimation, and robotics. This allows for accurate detection directly in 3D scenes, object- and environment-aware grasp prediction, as well as robust and repeatable robotic manipulation. This work aims to integrate these recent methods into a comprehensive framework for robotic interaction and manipulation in human-centric environments. Specifically, we leverage 3D reconstructions from a commodity 3D scanner for open-vocabulary instance segmentation, alongside grasp pose estimation, to demonstrate dynamic picking of objects, and opening of drawers. We show the performance and robustness of our model in two sets of real-world experiments including dynamic object retrieval and drawer opening, reporting a 51% and 82% success rate respectively. Code of our framework as well as videos are available on: https://spot-compose.github.io/.

arxiv情報

著者 Oliver Lemke,Zuria Bauer,René Zurbrügg,Marc Pollefeys,Francis Engelmann,Hermann Blum
発行日 2024-04-18 18:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 パーマリンク