EvaSurf: Efficient View-Aware Implicit Textured Surface Reconstruction on Mobile Devices

要約

現実世界の 3D オブジェクトの再構築は、仮想現実、ビデオ ゲーム、アニメーションなど、コンピューター ビジョンに多数の用途があります。
理想的には、3D 再構成手法は、3D の一貫性を備えた忠実度の高い結果をリアルタイムで生成する必要があります。
従来の方法では、写真一致性制約または学習された特徴を使用して画像間のピクセルを一致させますが、Neural Radiance Fields (NeRF) などの微分可能レンダリング方法では、サーフェスベースの表現または微分可能ボリューム レンダリングを使用して、忠実度の高いシーンを生成します。
ただし、これらの方法はレンダリングに過度の実行時間を必要とするため、日常的なアプリケーションには実用的ではありません。
これらの課題に対処するために、$\textbf{EvaSurf}$、$\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware Implicit Textured $\textbf{Surf}$ を提案します。
ace モバイルデバイス上での再構築方法。
私たちの方法では、まずマルチビュー監視モジュールを備えた効率的なサーフェスベースのモデルを採用して、正確なメッシュの作成を保証します。
高忠実度のレンダリングを可能にするために、ガウス ローブのセットが埋め込まれた暗黙的なテクスチャを学習して、ビュー依存の情報をキャプチャします。
さらに、明示的なジオメトリと暗黙的なテクスチャを使用すると、軽量のニューラル シェーダを使用して計算コストを削減し、一般的なモバイル デバイスでのリアルタイム レンダリングをさらにサポートできます。
広範な実験により、私たちの方法が合成データセットと現実世界のデータセットの両方で高品質の外観と正確なメッシュを再構築できることが実証されました。
さらに、私たちのメソッドは単一の GPU を使用してわずか 1 ~ 2 時間でトレーニングでき、モバイル デバイス上で 40FPS (フレーム/秒) 以上で実行でき、レンダリングに必要な最終パッケージの占有量はわずか 40 ~ 50 MB です。

要約(オリジナル)

Reconstructing real-world 3D objects has numerous applications in computer vision, such as virtual reality, video games, and animations. Ideally, 3D reconstruction methods should generate high-fidelity results with 3D consistency in real-time. Traditional methods match pixels between images using photo-consistency constraints or learned features, while differentiable rendering methods like Neural Radiance Fields (NeRF) use surface-based representations or differentiable volume rendering to generate high-fidelity scenes. However, these methods require excessive runtime for rendering, making them impractical for daily applications. To address these challenges, we present $\textbf{EvaSurf}$, an $\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware Implicit Textured $\textbf{Surf}$ace Reconstruction method on Mobile Devices. In our method, we first employ an efficient surface-based model with a multi-view supervision module to ensure accurate mesh creation. To enable high-fidelity rendering, we learn an implicit texture embedded with a set of Gaussian lobes to capture view-dependent information. Furthermore, With the explicit geometry and the implicit texture, we can employ a lightweight neural shader to reduce the expense of computation and further support real-time rendering on common mobile devices. Extensive experiments demonstrate that our method can reconstruct high-quality appearance and accurate mesh on both synthetic and real-world datasets. Moreover, our method can be trained in just 1-2 hours using a single GPU and run on mobile devices at over 40FPS (Frames Per Second), with a final package required for rendering taking up only 40-50 MB.

arxiv情報

著者 Jingnan Gao,Zhuo Chen,Yichao Yan,Bowen Pan,Zhe Wang,Jiangjing Lyu,Xiaokang Yang
発行日 2023-11-16 11:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク