Category-level Shape Estimation for Densely Cluttered Objects

要約

密集したクラッター内のオブジェクトの形状を正確に推定することは、ロボットによる梱包に重要な貢献をします。これは、オブジェクトを最適に配置するには、ロボット プランナーが存在するすべてのオブジェクトの形状情報を取得する必要があるためです。
ただし、パッキング対象のオブジェクトは、通常、重度のオクルージョンを伴う密集した雑然と積み上げられており、オブジェクトの形状は、同じカテゴリのインスタンスごとに大きく異なります。
これらはそれぞれ、大きなオブジェクト セグメンテーション エラーを引き起こし、目に見えないインスタンスで不正確な形状回復を引き起こします。これらは両方とも、展開中の形状推定のパフォーマンスを低下させます。
本稿では、密集したオブジェクトのカテゴリレベルの形状推定方法を提案します。
私たちのフレームワークは、多視点視覚情報融合を介してクラッター内の各オブジェクトを分割し、高いセグメンテーション精度を実現し、インスタンス形状は、強化された一般化能力を得るために多様な幾何学的変換でカテゴリ テンプレートを変形することによって復元されます。
具体的には、最初に、点群再構成のためにオブジェクト クラッターのマルチビュー RGB-D 画像を収集します。
次に、マルチビュー RGB 画像の視覚情報を表す特徴マップと、クラッター ポイント クラウドから学習したピクセル アフィニティを融合します。ここで、取得したマルチビュー RGB 画像のインスタンス セグメンテーション マスクを投影して、クラッター ポイント クラウドを分割します。
最後に、部分的に観測されたインスタンス点群と対応するカテゴリ テンプレートからインスタンス ジオメトリ情報が取得され、テンプレートに関する変形パラメータが形状推定のために予測されます。
シミュレーション環境と実世界での実験により、私たちの方法が、さまざまな形状の密集した日常のオブジェクトに対して高い形状推定精度を達成することが示されています。

要約(オリジナル)

Accurately estimating the shape of objects in dense clutters makes important contribution to robotic packing, because the optimal object arrangement requires the robot planner to acquire shape information of all existed objects. However, the objects for packing are usually piled in dense clutters with severe occlusion, and the object shape varies significantly across different instances for the same category. They respectively cause large object segmentation errors and inaccurate shape recovery on unseen instances, which both degrade the performance of shape estimation during deployment. In this paper, we propose a category-level shape estimation method for densely cluttered objects. Our framework partitions each object in the clutter via the multi-view visual information fusion to achieve high segmentation accuracy, and the instance shape is recovered by deforming the category templates with diverse geometric transformations to obtain strengthened generalization ability. Specifically, we first collect the multi-view RGB-D images of the object clutters for point cloud reconstruction. Then we fuse the feature maps representing the visual information of multi-view RGB images and the pixel affinity learned from the clutter point cloud, where the acquired instance segmentation masks of multi-view RGB images are projected to partition the clutter point cloud. Finally, the instance geometry information is obtained from the partially observed instance point cloud and the corresponding category template, and the deformation parameters regarding the template are predicted for shape estimation. Experiments in the simulated environment and real world show that our method achieves high shape estimation accuracy for densely cluttered everyday objects with various shapes.

arxiv情報

著者 Zhenyu Wu,Ziwei Wang,Jiwen Lu,Haibin Yan
発行日 2023-02-23 13:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク