Depth-based 6DoF Object Pose Estimation using Swin Transformer

要約

タイトル:Swin Transformerを用いた深度ベースの6DoFオブジェクト姿勢推定

要約:

– 6D物体の姿勢推定は、ロボットのつかむこと、自動運転、拡張現実など多くのアプリケーションにおいて重要である。
– しかし、光の弱い条件やテクスチャのないオブジェクトを扱う場合、このタスクはより困難になる。
– この問題を解決するために、深度画像が重要な役割を果たしている。
– しかし、深度情報を完全に利用して姿勢推定の性能を向上させることは、困難な課題であり、これまであまり研究されていない。
– この課題に対処するために、SwinDePoseという新しいフレームワークを提案する。
– SwinDePoseは、深度画像内で定義された各法線ベクトルとカメラ座標系の3つの座標軸との間の角度を計算する。
– 結果得られた角度は、Swin Transformerでエンコードされた画像に形成される。
– さらに、ポイントクラウドから表現を学習するためにRandLA-Netを適用する。
– 得られた画像とポイントクラウドの埋め込みは、意味のあるセグメンテーションモジュールと3Dキーポイントの位置決めモジュールにフィードされる。
– 最終的に、ターゲットオブジェクトの予測されたセマンティックマスクと3Dキーポイントに基づく最小二乗合わせ法を用いて6Dポーズを推定する。
– LineModやOcclusion LineModのデータセットでの実験では、SwinDePoseが深度画像を使用した6Dオブジェクトの姿勢推定の現状最高水準の方法を上回り、実世界のシナリオでの性能向上の可能性を示唆している。
– ソースコードは https://github.com/zhujunli1993/SwinDePose に公開されている。

要約(オリジナル)

Accurately estimating the 6D pose of objects is crucial for many applications, such as robotic grasping, autonomous driving, and augmented reality. However, this task becomes more challenging in poor lighting conditions or when dealing with textureless objects. To address this issue, depth images are becoming an increasingly popular choice due to their invariance to a scene’s appearance and the implicit incorporation of essential geometric characteristics. However, fully leveraging depth information to improve the performance of pose estimation remains a difficult and under-investigated problem. To tackle this challenge, we propose a novel framework called SwinDePose, that uses only geometric information from depth images to achieve accurate 6D pose estimation. SwinDePose first calculates the angles between each normal vector defined in a depth image and the three coordinate axes in the camera coordinate system. The resulting angles are then formed into an image, which is encoded using Swin Transformer. Additionally, we apply RandLA-Net to learn the representations from point clouds. The resulting image and point clouds embeddings are concatenated and fed into a semantic segmentation module and a 3D keypoints localization module. Finally, we estimate 6D poses using a least-square fitting approach based on the target object’s predicted semantic mask and 3D keypoints. In experiments on the LineMod and Occlusion LineMod datasets, SwinDePose outperforms existing state-of-the-art methods for 6D object pose estimation using depth images. This demonstrates the effectiveness of our approach and highlights its potential for improving performance in real-world scenarios. Our code is at https://github.com/zhujunli1993/SwinDePose.

arxiv情報

著者 Zhujun Li,Ioannis Stamos
発行日 2023-04-27 18:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.RO パーマリンク