Sparse Multi-Object Render-and-Compare

要約

単一の画像から静止オブジェクトの 3D 形状と姿勢を再構成することは、ロボット工学、拡張現実、デジタル コンテンツ作成などのさまざまな業界にとって不可欠なタスクです。
これは、さまざまな表現で 3D 形状を直接予測することによって、またはデータベースから CAD モデルを取得してそれらの位置合わせを予測することによって行うことができます。
3D 形状を直接予測すると、多くの場合、非現実的な、過度に滑らかになった、またはモザイク状の形状が生成されます。
CAD モデルを取得すると現実的な形状が保証されますが、堅牢で正確な位置合わせが必要です。
画像の特徴から CAD モデルのポーズを直接予測する方法を学習することは困難であり、不正確です。
ROCA などの作品は、予測された正規化されたオブジェクト座標からポーズを計算します。これはより正確である可能性がありますが、系統的な障害が発生しやすいです。
SPARC は、ネットワークが独自の予測を繰り返し改善する「レンダリングと比較」アプローチに従うことで、正確な位置合わせが達成されることを実証しています。
それにもかかわらず、画像内で検出されたすべてのオブジェクトに対して個別の CAD アライメントが実行されます。
このアプローチは、時間計算量がオブジェクトの数に比例して増加し、オブジェクト間の関係を学習できないため、多くのオブジェクトに適用すると遅くなります。
新しいネットワーク アーキテクチャ Multi-SPARC の導入により、検出された複数のオブジェクトに対して CAD モデルの位置合わせを共同で実行する方法を学習します。
他のシングルビュー手法と比較して、困難な現実世界のデータセット ScanNet で最先端のパフォーマンスを実現します。
インスタンスのアライメント精度を 31.8% から 40.3% に向上させることで、最先端のマルチビュー手法と同様のパフォーマンスを実現します。

要約(オリジナル)

Reconstructing 3D shape and pose of static objects from a single image is an essential task for various industries, including robotics, augmented reality, and digital content creation. This can be done by directly predicting 3D shape in various representations or by retrieving CAD models from a database and predicting their alignments. Directly predicting 3D shapes often produces unrealistic, overly smoothed or tessellated shapes. Retrieving CAD models ensures realistic shapes but requires robust and accurate alignment. Learning to directly predict CAD model poses from image features is challenging and inaccurate. Works, such as ROCA, compute poses from predicted normalised object coordinates which can be more accurate but are susceptible to systematic failure. SPARC demonstrates that following a ”render-and-compare” approach where a network iteratively improves upon its own predictions achieves accurate alignments. Nevertheless, it performs individual CAD alignment for every object detected in an image. This approach is slow when applied to many objects as the time complexity increases linearly with the number of objects and can not learn inter-object relations. Introducing a new network architecture Multi-SPARC we learn to perform CAD model alignments for multiple detected objects jointly. Compared to other single-view methods we achieve state-of-the-art performance on the challenging real-world dataset ScanNet. By improving the instance alignment accuracy from 31.8% to 40.3% we perform similar to state-of-the-art multi-view methods.

arxiv情報

著者 Florian Langer,Ignas Budvytis,Roberto Cipolla
発行日 2023-10-17 12:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク