SPARC: Sparse Render-and-Compare for CAD model alignment in a single RGB image

要約

1枚の画像から静止物体の3次元形状や姿勢を推定することは、ロボット工学、拡張現実、デジタルコンテンツ制作に重要な応用がある。多くの場合、これは非現実的で過度にテッセレーションされた形状を生成する直接的なメッシュ予測によって行われ、また、形状予測を検索タスクとして定式化し、CADモデルのアライメントを行うことによって行われます。2次元画像の特徴からCADモデルの姿勢を直接予測することは困難であり、不正確である。ROCAのようないくつかの研究では、正規化されたオブジェクト座標を回帰し、それを姿勢の計算に用いている。これはより正確な姿勢推定を行うことができるが、正規化された物体座標を予測することは系統的な失敗の影響を受けやすい。我々は、効率的な変換器アーキテクチャを活用し、レンダリングと比較を繰り返す疎なアプローチが、正規化されたオブジェクト座標に依存するよりも正確でロバストであることを実証する。このために、我々は画像から直接推定した疎な奥行きと表面法線値を含む2D画像情報と3D CADモデル情報を早期融合する。具体的には、CADモデルからサンプリングした点を初期ランダムポーズで再投影し、その深度と表面法線値を計算する。この結合された情報は、9自由度CADモデルの姿勢更新を予測するために学習する姿勢予測ネットワーク、SPARC-Netへの入力となります。CADモデルは再度投影され、次のポーズ更新が予測されます。我々のアライメント方法は、わずか3回の繰り返しで収束し、実世界の困難なデータセットScanNetにおいて、インスタンスのアライメント精度を25.0%から31.8%に向上させ、最先端の性能を達成しました。コードは https://github.com/florianlanger/SPARC で公開される予定です。

要約(オリジナル)

Estimating 3D shapes and poses of static objects from a single image has important applications for robotics, augmented reality and digital content creation. Often this is done through direct mesh predictions which produces unrealistic, overly tessellated shapes or by formulating shape prediction as a retrieval task followed by CAD model alignment. Directly predicting CAD model poses from 2D image features is difficult and inaccurate. Some works, such as ROCA, regress normalised object coordinates and use those for computing poses. While this can produce more accurate pose estimates, predicting normalised object coordinates is susceptible to systematic failure. Leveraging efficient transformer architectures we demonstrate that a sparse, iterative, render-and-compare approach is more accurate and robust than relying on normalised object coordinates. For this we combine 2D image information including sparse depth and surface normal values which we estimate directly from the image with 3D CAD model information in early fusion. In particular, we reproject points sampled from the CAD model in an initial, random pose and compute their depth and surface normal values. This combined information is the input to a pose prediction network, SPARC-Net which we train to predict a 9 DoF CAD model pose update. The CAD model is reprojected again and the next pose update is predicted. Our alignment procedure converges after just 3 iterations, improving the state-of-the-art performance on the challenging real-world dataset ScanNet from 25.0% to 31.8% instance alignment accuracy. Code will be released at https://github.com/florianlanger/SPARC .

arxiv情報

著者 Florian Langer,Gwangbin Bae,Ignas Budvytis,Roberto Cipolla
発行日 2022-10-03 16:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク