要約
ニューラル フィールドの進歩により、動的な 3D シーンの形状と外観を忠実にキャプチャできるようになりました。
ただし、その機能は、アルゴリズム上の課題と大規模なマルチビューの実世界データセットの欠如により、2D ビデオなどの従来の表現によって提供される機能よりも遅れています。
私たちは、53 台のカメラを備えたカスタマイズされた低コスト システムを使用してキャプチャされたテーブルスケール シーンの、同期された高解像度で長時間のマルチビュー ビデオ シーケンスを含む、現実世界の 360 度の動的ビジュアル データセットである DiVa-360 を使用して、データセットの制限に対処します。
これには、さまざまなモーション タイプで分類された 21 個のオブジェクト中心のシーケンス、25 個の複雑な手とオブジェクトのインタラクション シーケンス、および 8 個の長時間シーケンスが含まれており、合計 1740 万の画像フレームになります。
さらに、前景と背景のセグメンテーション マスク、同期された音声、およびテキストの説明も提供します。
DiVa-360 で最先端の動的神経場手法のベンチマークを行い、既存の手法と長時間の神経場捕捉に関する今後の課題についての洞察を提供します。
要約(オリジナル)
Advances in neural fields are enabling high-fidelity capture of the shape and appearance of dynamic 3D scenes. However, their capabilities lag behind those offered by conventional representations such as 2D videos because of algorithmic challenges and the lack of large-scale multi-view real-world datasets. We address the dataset limitation with DiVa-360, a real-world 360 dynamic visual dataset that contains synchronized high-resolution and long-duration multi-view video sequences of table-scale scenes captured using a customized low-cost system with 53 cameras. It contains 21 object-centric sequences categorized by different motion types, 25 intricate hand-object interaction sequences, and 8 long-duration sequences for a total of 17.4 M image frames. In addition, we provide foreground-background segmentation masks, synchronized audio, and text descriptions. We benchmark the state-of-the-art dynamic neural field methods on DiVa-360 and provide insights about existing methods and future challenges on long-duration neural field capture.
arxiv情報
著者 | Cheng-You Lu,Peisen Zhou,Angela Xing,Chandradeep Pokhariya,Arnab Dey,Ishaan Shah,Rugved Mavidipalli,Dylan Hu,Andrew Comport,Kefan Chen,Srinath Sridhar |
発行日 | 2024-03-26 17:40:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google