要約
この論文では、GS2Pose と呼ばれる、新しいオブジェクトの正確かつロバストな 6D 姿勢推定のための新しい方法を提案します。
3D ガウス スプラッティングを導入することにより、GS2Pose は高品質の CAD モデルを必要とせずに再構成結果を利用できます。つまり、入力としてセグメント化された RGBD 画像のみが必要となります。
具体的には、GS2Pose は、粗い推定とそれに続く精密な推定からなる 2 段階の構造を採用しています。
粗い段階では、Pose-Net と呼ばれる、偏光注意メカニズムを備えた軽量の U-Net ネットワークが設計されます。
教師ありトレーニングに 3DGS モデルを使用することで、Pose-Net は NOCS 画像を生成して粗いポーズを計算できます。
改良段階では、GS2Pose は、GS-Refiner と呼ばれる、再投影またはバンドル調整 (BA) の考え方に従ってポーズ回帰アルゴリズムを定式化します。
リー代数を活用して 3DGS を拡張することで、GS-Refiner は、入力イメージとレンダリングされたイメージを比較することで粗いポーズを調整する、ポーズ微分可能なレンダリング パイプラインを取得します。
また、GS-Refiner は、環境適応を達成するために 3DGS モデルのパラメーターを選択的に更新し、それによって照明の変動、オクルージョン、その他の困難な破壊的要因に対するアルゴリズムの堅牢性と柔軟性を強化します。
GS2Pose は、LineMod データセットに対して行われた実験を通じて評価され、同様のアルゴリズムと比較され、非常に競争力の高い結果が得られました。
GS2Pose のコードは間もなく GitHub でリリースされる予定です。
要約(オリジナル)
This paper proposes a new method for accurate and robust 6D pose estimation of novel objects, named GS2Pose. By introducing 3D Gaussian splatting, GS2Pose can utilize the reconstruction results without requiring a high-quality CAD model, which means it only requires segmented RGBD images as input. Specifically, GS2Pose employs a two-stage structure consisting of coarse estimation followed by refined estimation. In the coarse stage, a lightweight U-Net network with a polarization attention mechanism, called Pose-Net, is designed. By using the 3DGS model for supervised training, Pose-Net can generate NOCS images to compute a coarse pose. In the refinement stage, GS2Pose formulates a pose regression algorithm following the idea of reprojection or Bundle Adjustment (BA), referred to as GS-Refiner. By leveraging Lie algebra to extend 3DGS, GS-Refiner obtains a pose-differentiable rendering pipeline that refines the coarse pose by comparing the input images with the rendered images. GS-Refiner also selectively updates parameters in the 3DGS model to achieve environmental adaptation, thereby enhancing the algorithm’s robustness and flexibility to illuminative variation, occlusion, and other challenging disruptive factors. GS2Pose was evaluated through experiments conducted on the LineMod dataset, where it was compared with similar algorithms, yielding highly competitive results. The code for GS2Pose will soon be released on GitHub.
arxiv情報
著者 | Jilan Mei,Junbo Li,Cai Meng |
発行日 | 2024-11-06 10:07:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google