DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via Deformable Template Field

要約

RGB深度画像ペアから、オープンワールドシーンにおける物体の6次元ポーズを推定し、3次元形状を再構成することは困難である。既存の手法の多くは、特定のテンプレートに対応する幾何学的特徴の学習に依存しており、同じカテゴリのオブジェクト間の形状のバリエーションやポーズの違いは無視されている。その結果、これらの手法は、複雑な環境における未知のオブジェクトインスタンスを扱う際に、パフォーマンスが低下する。これに対して、正規化された幾何構造事前分布を利用することで、カテゴリレベルの推定と再構成を達成しようとするアプローチもあるが、静的事前分布に基づく再構成は、クラス内の大きなばらつきに苦戦する。これらの問題を解決するために、我々は、物体カテゴリの暗黙的な神経場に基づく、ポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。DTF-Netでは、一般的なカテゴリ毎の形状潜在特徴とカテゴリ内の幾何学的変形特徴を表現する変形可能なテンプレート場を設計する。この場は連続的な形状対応を確立し、カテゴリテンプレートを任意の観測インスタンスに変形して形状再構成を達成する。シーン内の各オブジェクトの正確な6次元姿勢を推定するために、フィールドからの変形特徴とテンプレートコードを共有する姿勢回帰モジュールを導入する。マルチモーダル表現抽出モジュールを統合し、オブジェクトの特徴と意味マスクを抽出することで、エンドツーエンドの推論を可能にする。さらに、学習時に、形状不変学習戦略と視点サンプリング法を実装し、物体のポーズ特徴を抽出するモデルの能力をさらに向上させる。REAL275データセットとCAMERA25データセットを用いた広範な実験により、合成シーンと実シーンの両方においてDTF-Netの優位性が実証された。さらに、DTF-Netが実際のロボットアームによる把持タスクを効果的にサポートすることを示す。

要約(オリジナル)

Estimating 6D poses and reconstructing 3D shapes of objects in open-world scenes from RGB-depth image pairs is challenging. Many existing methods rely on learning geometric features that correspond to specific templates while disregarding shape variations and pose differences among objects in the same category. As a result, these methods underperform when handling unseen object instances in complex environments. In contrast, other approaches aim to achieve category-level estimation and reconstruction by leveraging normalized geometric structure priors, but the static prior-based reconstruction struggles with substantial intra-class variations. To solve these problems, we propose the DTF-Net, a novel framework for pose estimation and shape reconstruction based on implicit neural fields of object categories. In DTF-Net, we design a deformable template field to represent the general category-wise shape latent features and intra-category geometric deformation features. The field establishes continuous shape correspondences, deforming the category template into arbitrary observed instances to accomplish shape reconstruction. We introduce a pose regression module that shares the deformation features and template codes from the fields to estimate the accurate 6D pose of each object in the scene. We integrate a multi-modal representation extraction module to extract object features and semantic masks, enabling end-to-end inference. Moreover, during training, we implement a shape-invariant training strategy and a viewpoint sampling method to further enhance the model’s capability to extract object pose features. Extensive experiments on the REAL275 and CAMERA25 datasets demonstrate the superiority of DTF-Net in both synthetic and real scenes. Furthermore, we show that DTF-Net effectively supports grasping tasks with a real robot arm.

arxiv情報

著者 Haowen Wang,Zhipeng Fan,Zhen Zhao,Zhengping Che,Zhiyuan Xu,Dong Liu,Feifei Feng,Yakun Huang,Xiuquan Qiao,Jian Tang
発行日 2023-08-04 10:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク