要約
オープンワールドにおけるロボットによる把握は、製造および自動化プロセスの重要なコンポーネントです。
多くの既存のアプローチは把握手順を容易にするために 2D セグメンテーション出力に依存していますが、2D 画像から奥行きを正確に決定することは依然として課題であり、多くの場合、複雑なスタッキング シナリオではパフォーマンスの制限につながります。
対照的に、3D 点群データを利用する技術は本質的に深度情報を取得するため、さまざまな複雑なスタッキング シーンを適切にナビゲートおよび操作できるようになります。
しかし、そのような取り組みは、データ収集デバイスの多様性とデータの非構造化の性質によってかなり妨げられており、一般化可能性が制限されています。
その結果、多くの研究は、特定の設定内で指定されたオブジェクトを管理することに狭く集中しており、現実世界への適用性が制限されています。
この論文では、トレーニングを必要とせず、これまで見たことのないオブジェクトに対しても、オープンワールドのシナリオでオブジェクト把握タスクを実行できる新しいパイプラインを紹介します。
さらに、当社のパイプラインは、さまざまなシーンにわたるさまざまな 3D 点群セグメンテーション モデルの柔軟な使用をサポートします。
セグメンテーションの結果を活用して、トレーニング不要のバイナリ クラスタリング アルゴリズムを使用することを提案します。このアルゴリズムは、セグメンテーションの精度を向上させるだけでなく、把握操作を実行するために目に見えないオブジェクトをクラスタリングして位置特定する機能も備えています。
私たちの実験では、さまざまなオープンワールドのシナリオを調査し、その結果は、さまざまな環境、ロボット、カメラ、オブジェクトにわたって一貫したパイプラインの顕著な堅牢性と汎用性を強調しています。
コードは論文が受理されると利用可能になります。
要約(オリジナル)
Robotic grasping in the open world is a critical component of manufacturing and automation processes. While numerous existing approaches depend on 2D segmentation output to facilitate the grasping procedure, accurately determining depth from 2D imagery remains a challenge, often leading to limited performance in complex stacking scenarios. In contrast, techniques utilizing 3D point cloud data inherently capture depth information, thus enabling adeptly navigating and manipulating a diverse range of complex stacking scenes. However, such efforts are considerably hindered by the variance in data capture devices and the unstructured nature of the data, which limits their generalizability. Consequently, much research is narrowly concentrated on managing designated objects within specific settings, which confines their real-world applicability. This paper presents a novel pipeline capable of executing object grasping tasks in open-world scenarios even on previously unseen objects without the necessity for training. Additionally, our pipeline supports the flexible use of different 3D point cloud segmentation models across a variety of scenes. Leveraging the segmentation results, we propose to engage a training-free binary clustering algorithm that not only improves segmentation precision but also possesses the capability to cluster and localize unseen objects for executing grasping operations. In our experiments, we investigate a range of open-world scenarios, and the outcomes underscore the remarkable robustness and generalizability of our pipeline, consistent across various environments, robots, cameras, and objects. The code will be made available upon acceptance of the paper.
arxiv情報
著者 | Weiguang Zhao,Chenru Jiang,Chengrui Zhang,Jie Sun,Yuyao Yan,Rui Zhang,Kaizhu Huang |
発行日 | 2024-11-27 08:23:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google