要約
我々は、人物をフィーチャーした未校正の多視点画像のまばらなセットから、メートル世界座標系における複数の人物メッシュ、シーン点群、およびカメラパラメータを統合して再構成する方法である「Humans and Structure from Motion」(HSfM) を紹介します。
私たちのアプローチは、データ駆動型のシーン再構築と従来の Structure-from-Motion (SfM) フレームワークを組み合わせて、より正確なシーンの再構築とカメラ推定を実現すると同時に人間のメッシュを回復します。
メートルスケール情報が欠如している既存のシーン再構成および SfM 手法とは対照的に、私たちの方法は人間の統計モデルを活用することでおおよそのメートルスケールを推定します。
さらに、シーンの点群と並行して同じ世界座標系内で複数の人間メッシュを再構築し、個人間の空間関係と環境内での位置を効果的にキャプチャします。
堅牢な基礎モデルを使用して人間、シーン、カメラの再構築を初期化し、これらの要素を共同で最適化します。
この共同最適化により、各コンポーネントの精度が相乗的に向上します。
EgoHumans と EgoExo4D という 2 つの挑戦的なベンチマークで、私たちの方法を既存のアプローチと比較し、世界座標フレーム内の人間の位置特定精度が大幅に向上していることを実証しました (EgoHumans では誤差が 3.51m から 1.04m に、EgoExo4D では 2.9m から 0.56m に減少しました)。
特に、私たちの結果は、人間のデータを SfM パイプラインに組み込むことでカメラのポーズ推定が向上することを示しています (たとえば、EgoHumans では RRA@15 が 20.3% 増加します)。
さらに、定性的な結果は、私たちのアプローチが全体的なシーンの再構成の品質を向上させることを示しています。
私たちのコードは muelea.github.io/hsfm で入手できます。
要約(オリジナル)
We present ‘Humans and Structure from Motion’ (HSfM), a method for jointly reconstructing multiple human meshes, scene point clouds, and camera parameters in a metric world coordinate system from a sparse set of uncalibrated multi-view images featuring people. Our approach combines data-driven scene reconstruction with the traditional Structure-from-Motion (SfM) framework to achieve more accurate scene reconstruction and camera estimation, while simultaneously recovering human meshes. In contrast to existing scene reconstruction and SfM methods that lack metric scale information, our method estimates approximate metric scale by leveraging a human statistical model. Furthermore, it reconstructs multiple human meshes within the same world coordinate system alongside the scene point cloud, effectively capturing spatial relationships among individuals and their positions in the environment. We initialize the reconstruction of humans, scenes, and cameras using robust foundational models and jointly optimize these elements. This joint optimization synergistically improves the accuracy of each component. We compare our method to existing approaches on two challenging benchmarks, EgoHumans and EgoExo4D, demonstrating significant improvements in human localization accuracy within the world coordinate frame (reducing error from 3.51m to 1.04m in EgoHumans and from 2.9m to 0.56m in EgoExo4D). Notably, our results show that incorporating human data into the SfM pipeline improves camera pose estimation (e.g., increasing RRA@15 by 20.3% on EgoHumans). Additionally, qualitative results show that our approach improves overall scene reconstruction quality. Our code is available at: muelea.github.io/hsfm.
arxiv情報
著者 | Lea Müller,Hongsuk Choi,Anthony Zhang,Brent Yi,Jitendra Malik,Angjoo Kanazawa |
発行日 | 2024-12-23 18:58:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google