Depth-based 6DoF Object Pose Estimation using Swin Transformer

要約

物体の6次元姿勢を正確に推定することは、ロボットによる把持、自律走行、拡張現実など、多くのアプリケーションにとって極めて重要である。しかし、このタスクは、照明条件が悪い場合やテクスチャのないオブジェクトを扱う場合に、より困難になります。この問題を解決するために、深度画像は、シーンの外観に対して不変であり、本質的な幾何学的特性を暗黙のうちに組み込むことができるため、ますます一般的になってきている。しかし、深度情報を十分に活用して姿勢推定の性能を向上させることは、依然として困難であり、十分に研究されていない問題である。この課題に取り組むため、我々はSwinDePoseと呼ばれる新しいフレームワークを提案し、深度画像からの幾何学的情報のみを用いて正確な6次元姿勢推定を実現する。SwinDePoseはまず、深度画像に定義された各法線ベクトルとカメラ座標系の3つの座標軸の間の角度を計算する。そして、得られた角度を画像に成形し、Swin Transformerを用いて符号化します。さらに、RandLA-Netを適用して、点群から表現を学習する。得られた画像と点群の埋め込みは連結され、セマンティックセグメンテーションモジュールと3Dキーポイントローカリゼーションモジュールに供給されます。最後に、ターゲットオブジェクトの予測されたセマンティックマスクと3Dキーポイントに基づき、最小二乗法で6Dポーズを推定します。LineModおよびOcclusion LineModデータセットを用いた実験では、SwinDePoseは、深度画像を用いた6次元オブジェクトの姿勢推定において、既存の最先端手法を凌駕しています。これは、我々のアプローチの有効性を実証し、実世界のシナリオでパフォーマンスを向上させる可能性を強調するものである。我々のコードは https://github.com/zhujunli1993/SwinDePose にあります。

要約(オリジナル)

Accurately estimating the 6D pose of objects is crucial for many applications, such as robotic grasping, autonomous driving, and augmented reality. However, this task becomes more challenging in poor lighting conditions or when dealing with textureless objects. To address this issue, depth images are becoming an increasingly popular choice due to their invariance to a scene’s appearance and the implicit incorporation of essential geometric characteristics. However, fully leveraging depth information to improve the performance of pose estimation remains a difficult and under-investigated problem. To tackle this challenge, we propose a novel framework called SwinDePose, that uses only geometric information from depth images to achieve accurate 6D pose estimation. SwinDePose first calculates the angles between each normal vector defined in a depth image and the three coordinate axes in the camera coordinate system. The resulting angles are then formed into an image, which is encoded using Swin Transformer. Additionally, we apply RandLA-Net to learn the representations from point clouds. The resulting image and point clouds embeddings are concatenated and fed into a semantic segmentation module and a 3D keypoints localization module. Finally, we estimate 6D poses using a least-square fitting approach based on the target object’s predicted semantic mask and 3D keypoints. In experiments on the LineMod and Occlusion LineMod datasets, SwinDePose outperforms existing state-of-the-art methods for 6D object pose estimation using depth images. This demonstrates the effectiveness of our approach and highlights its potential for improving performance in real-world scenarios. Our code is at https://github.com/zhujunli1993/SwinDePose.

arxiv情報

著者 Zhujun Li,Ioannis Stamos
発行日 2023-03-03 18:25:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク