要約
このペーパーでは、ロボット操作タスクにおける明確なオブジェクトのカテゴリレベルのポーズ推定の問題に対処します。
最近の作品は、カテゴリレベルでの部分ポーズとサイズを推定することで有望な結果を示しています。
ただし、これらのアプローチは、主にポイントクラウドに最初のセグメントパーツインスタンスをセグメント化し、6Dポーズの正規化された部分座標空間(NPCS)表現を推定する複雑なマルチステージパイプラインに従います。
これらのアプローチは、リアルタイムのロボットタスクでの高い計算コストとパフォーマンスの低さに悩まされています。
これらの制限に対処するために、インスタンスセグメンテーションとNPCS表現をエンドツーエンドの方法で同時に出力する単一ステージの方法であるYoeoを提案します。
統一されたネットワークを使用して、ポイントごとのセマンティックラベルとCentroidオフセットを生成し、同じパーツインスタンスのポイントが同じ重心に投票できるようにします。
さらに、クラスタリングアルゴリズムを利用して、推定重心距離に基づいてポイントを区別します。
最後に、最初に各インスタンスのNPCS領域を分離します。
次に、分離した領域を実際のポイントクラウドと並べて、最終的なポーズとサイズを回復します。
GAPARTデータセットの実験結果は、提案されたシングルショット方法のポーズ推定機能を示しています。
また、合成訓練を受けたモデルを実際の設定で展開し、200Hzでリアルタイムの視覚フィードバックを提供し、物理的なキノバロボットが目に見えない明確なオブジェクトと対話できるようにします。
これは、提案された方法の有効性と有効性を示しています。
要約(オリジナル)
This paper addresses the problem of category-level pose estimation for articulated objects in robotic manipulation tasks. Recent works have shown promising results in estimating part pose and size at the category level. However, these approaches primarily follow a complex multi-stage pipeline that first segments part instances in the point cloud and then estimates the Normalized Part Coordinate Space (NPCS) representation for 6D poses. These approaches suffer from high computational costs and low performance in real-time robotic tasks. To address these limitations, we propose YOEO, a single-stage method that simultaneously outputs instance segmentation and NPCS representations in an end-to-end manner. We use a unified network to generate point-wise semantic labels and centroid offsets, allowing points from the same part instance to vote for the same centroid. We further utilize a clustering algorithm to distinguish points based on their estimated centroid distances. Finally, we first separate the NPCS region of each instance. Then, we align the separated regions with the real point cloud to recover the final pose and size. Experimental results on the GAPart dataset demonstrate the pose estimation capabilities of our proposed single-shot method. We also deploy our synthetically-trained model in a real-world setting, providing real-time visual feedback at 200Hz, enabling a physical Kinova robot to interact with unseen articulated objects. This showcases the utility and effectiveness of our proposed method.
arxiv情報
著者 | Jingshun Huang,Haitao Lin,Tianyu Wang,Yanwei Fu,Yu-Gang Jiang,Xiangyang Xue |
発行日 | 2025-06-06 03:49:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google