要約
2Dから3Dの認識における最近の進歩により、2D画像からの3Dシーンの理解が大幅に向上しました。
ただし、既存の方法は、シーン全体の限られた一般化、準最適な知覚精度、再構築速度の遅いなど、重要な課題に直面しています。
これらの制限に対処するために、知覚効率の高い3D再構成(PE3R)を提案します。これは、精度と効率の両方を向上させるために設計された新しいフレームワークです。
PE3Rは、迅速な3Dセマンティックフィールド再構成を可能にするために、フィードフォワードアーキテクチャを採用しています。
このフレームワークは、再構築速度を大幅に改善しながら、多様なシーンやオブジェクトにわたって堅牢なゼロショット一般化を示しています。
2D-To-3Dから3Dのオープンボキャブラリーセグメンテーションと3D再構成に関する広範な実験により、PE3Rの有効性と汎用性が検証されます。
このフレームワークは、3Dセマンティックフィールド再構築で最低9倍のスピードアップを達成し、認識の精度と再構築の精度の大幅な利益を得て、フィールドに新しいベンチマークを設定します。
このコードは、https://github.com/hujiecpp/pe3rで公開されています。
要約(オリジナル)
Recent advancements in 2D-to-3D perception have significantly improved the understanding of 3D scenes from 2D images. However, existing methods face critical challenges, including limited generalization across scenes, suboptimal perception accuracy, and slow reconstruction speeds. To address these limitations, we propose Perception-Efficient 3D Reconstruction (PE3R), a novel framework designed to enhance both accuracy and efficiency. PE3R employs a feed-forward architecture to enable rapid 3D semantic field reconstruction. The framework demonstrates robust zero-shot generalization across diverse scenes and objects while significantly improving reconstruction speed. Extensive experiments on 2D-to-3D open-vocabulary segmentation and 3D reconstruction validate the effectiveness and versatility of PE3R. The framework achieves a minimum 9-fold speedup in 3D semantic field reconstruction, along with substantial gains in perception accuracy and reconstruction precision, setting new benchmarks in the field. The code is publicly available at: https://github.com/hujiecpp/PE3R.
arxiv情報
著者 | Jie Hu,Shizun Wang,Xinchao Wang |
発行日 | 2025-03-10 16:29:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google