要約
この論文では、マルチビューまたは単眼ビデオから動的 3D シーンを効率的に再構成する新しい方法であるマスク時空ハッシュ エンコーディング (MSTH) を提案します。
動的シーンには多くの場合、ストレージと計算の冗長性をもたらす実質的な静的領域が含まれるという観察に基づいて、MSTH は動的シーンを 3D ハッシュ エンコーディングと 4D ハッシュ エンコーディングの重み付けされた組み合わせとして表します。
2 つのコンポーネントの重みは、各 3D 位置の空間的および時間的重要性を反映する不確実性ベースの目標によって導かれる学習可能なマスクによって表されます。
この設計により、静的領域での冗長なクエリと変更を回避することでハッシュの衝突率を下げることができ、小さなサイズのハッシュ テーブルで多数の時空ボクセルを表現することが可能になります。
多数の時間的に冗長な特徴を個別に使用するため、私たちの方法は最適化が容易で、300 フレームの動的シーンに対してわずか 20 分のトレーニングで迅速に収束します。その結果、MSTH はわずか 20 分のトレーニング時間で以前の方法よりも一貫して優れた結果を取得します。
130 MB のメモリストレージ。
コードは https://github.com/masked-spacetime-hashing/msth で入手できます。
要約(オリジナル)
In this paper, we propose the Masked Space-Time Hash encoding (MSTH), a novel method for efficiently reconstructing dynamic 3D scenes from multi-view or monocular videos. Based on the observation that dynamic scenes often contain substantial static areas that result in redundancy in storage and computations, MSTH represents a dynamic scene as a weighted combination of a 3D hash encoding and a 4D hash encoding. The weights for the two components are represented by a learnable mask which is guided by an uncertainty-based objective to reflect the spatial and temporal importance of each 3D position. With this design, our method can reduce the hash collision rate by avoiding redundant queries and modifications on static areas, making it feasible to represent a large number of space-time voxels by hash tables with small size.Besides, without the requirements to fit the large numbers of temporally redundant features independently, our method is easier to optimize and converge rapidly with only twenty minutes of training for a 300-frame dynamic scene.As a result, MSTH obtains consistently better results than previous methods with only 20 minutes of training time and 130 MB of memory storage. Code is available at https://github.com/masked-spacetime-hashing/msth
arxiv情報
著者 | Feng Wang,Zilong Chen,Guokang Wang,Yafei Song,Huaping Liu |
発行日 | 2023-10-26 16:18:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google