RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion

要約

3D Shape Compleyは、ロボット工学、デジタルツイン再建、および拡張現実(XR)に幅広いアプリケーションを備えています。
3Dオブジェクトとシーンの完了における最近の進歩は印象的な結果を達成していますが、既存の方法は3Dの一貫性を欠いており、計算的に高価であり、シャープなオブジェクトの境界を獲得するのに苦労しています。
私たちの研究(Rayst3R)は、3D形状の完成を新しいビュー合成問題として再補充することにより、これらの制限に対処します。
具体的には、単一のRGB-D画像と新しい視点(クエリレイのコレクションとしてエンコードされた)を考えると、フィードフォワードトランスを訓練して、これらのクエリレイの深さマップ、オブジェクトマスク、ピクセルあたりの信頼スコアを予測します。
Rayst3Rは、これらの予測を複数のクエリビューで融合して、完全な3D形状を再構築します。
合成および実世界のデータセットでRayST3Rを評価し、最先端のパフォーマンスを実現し、3D面取り距離ですべてのデータセットのベースラインを最大44%上回ることを観察します。
プロジェクトページ:https://rayst3r.github.io

要約(オリジナル)

3D shape completion has broad applications in robotics, digital twin reconstruction, and extended reality (XR). Although recent advances in 3D object and scene completion have achieved impressive results, existing methods lack 3D consistency, are computationally expensive, and struggle to capture sharp object boundaries. Our work (RaySt3R) addresses these limitations by recasting 3D shape completion as a novel view synthesis problem. Specifically, given a single RGB-D image and a novel viewpoint (encoded as a collection of query rays), we train a feedforward transformer to predict depth maps, object masks, and per-pixel confidence scores for those query rays. RaySt3R fuses these predictions across multiple query views to reconstruct complete 3D shapes. We evaluate RaySt3R on synthetic and real-world datasets, and observe it achieves state-of-the-art performance, outperforming the baselines on all datasets by up to 44% in 3D chamfer distance. Project page: https://rayst3r.github.io

arxiv情報

著者 Bardienus P. Duisterhof,Jan Oberst,Bowen Wen,Stan Birchfield,Deva Ramanan,Jeffrey Ichnowski
発行日 2025-06-05 17:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク