GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting

要約

この論文では、新しいオブジェクトの 6D 姿勢を位置特定および推定するための統合フレームワークである GS-Pose を紹介します。
GS-Pose は、これまでに見たことのないオブジェクトの一連のポーズ済み RGB 画像から始まり、データベースに保存される 3 つの異なる表現を構築します。
推論時、GS-Pose は、入力画像内のオブジェクトの位置を特定し、取得アプローチを使用してその初期 6D ポーズを推定し、レンダリングと比較の方法でポーズを調整することによって、順次動作します。
重要な洞察は、プロセスの各段階で適切なオブジェクト表現を適用することです。
特に、改良ステップでは、高いレンダリング速度と比較的短い最適化時間を提供する新しい微分可能なレンダリング技術である 3D ガウス スプラッティングを活用します。
既製のツールチェーンや携帯電話などの汎用ハードウェアを使用して、データベースに追加する新しいオブジェクトをキャプチャできます。
LINEMOD および OnePose-LowTexture データセットの広範な評価により、優れたパフォーマンスが実証され、新しい最先端技術が確立されました。
プロジェクトページ: https://dingdingcai.github.io/gs-pose。

要約(オリジナル)

This paper introduces GS-Pose, a unified framework for localizing and estimating the 6D pose of novel objects. GS-Pose begins with a set of posed RGB images of a previously unseen object and builds three distinct representations stored in a database. At inference, GS-Pose operates sequentially by locating the object in the input image, estimating its initial 6D pose using a retrieval approach, and refining the pose with a render-and-compare method. The key insight is the application of the appropriate object representation at each stage of the process. In particular, for the refinement step, we leverage 3D Gaussian splatting, a novel differentiable rendering technique that offers high rendering speed and relatively low optimization time. Off-the-shelf toolchains and commodity hardware, such as mobile phones, can be used to capture new objects to be added to the database. Extensive evaluations on the LINEMOD and OnePose-LowTexture datasets demonstrate excellent performance, establishing the new state-of-the-art. Project page: https://dingdingcai.github.io/gs-pose.

arxiv情報

著者 Dingding Cai,Janne Heikkilä,Esa Rahtu
発行日 2024-08-14 13:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク