要約
私たちは、視覚的な重なりがほとんどなくても、いくつかのポーズをとっていない画像から 3D オブジェクトを再構築すると同時に、単一の A100 GPU で約 1.3 秒で相対的なカメラのポーズを推定するポーズフリー大規模再構成モデル (PF-LRM) を提案します。
PF-LRM は、セルフ アテンション ブロックを利用して 3D オブジェクト トークンと 2D 画像トークンの間で情報を交換する、拡張性の高い方法です。
各ビューの粗い点群を予測し、微分可能な Perspective-n-Point (PnP) ソルバーを使用してカメラのポーズを取得します。
約 100 万個のオブジェクトの膨大な量のマルチビューポーズ データでトレーニングされた場合、PF-LRM は強力なクロスデータセット汎化能力を示し、さまざまな目に見えない評価における姿勢予測精度と 3D 再構成品質の点でベースライン手法を大幅に上回ります。
データセット。
また、高速フィードフォワード推論を使用した、下流のテキスト/画像から 3D タスクへのモデルの適用性も示します。
私たちのプロジェクトの Web サイトは https://totoro97.github.io/pf-lrm です。
要約(オリジナル)
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model’s applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
arxiv情報
著者 | Peng Wang,Hao Tan,Sai Bi,Yinghao Xu,Fujun Luan,Kalyan Sunkavalli,Wenping Wang,Zexiang Xu,Kai Zhang |
発行日 | 2023-11-20 18:57:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google