LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh

要約

スパース入力からのアニメーション可能なヒトアバターの一般化可能なレンダリングは、シーン固有の最適化を回避し、迅速な再構築を可能にするために、大規模なデータのトレーニングから抽出されたデータプライアーと誘導バイアスに依存しています。
これは、2つの主な課題を提起します。まず、シーン固有の最適化における反復勾配ベースの調整とは異なり、一般化可能な方法は、推論時に単一のパスで人間の形状の表現を再構築する必要があります。
第二に、レンダリングは、計算上効率的でありながら高解像度であることが好ましいです。
両方の課題に対処するために、最近提案されたデュアル形状表現を強化します。これは、メッシュとガウスのポイントの利点を2つの方法で組み合わせます。
再構築を改善するために、反復フィードバック更新フレームワークを提案します。これにより、再構築中の標準的な人間の形状の表現が連続して改善されます。
計算上効率的でありながら高解像度のレンダリングを実現するために、結合されたマルチ解像度のガウスオンメッシュ表現を研究します。
挑戦的なThuman2.0、Xhuman、Aist ++データに関する提案されたアプローチを評価します。
私たちのアプローチは、スパース入力からのアニメーション可能な表現を1秒未満で再構築し、95.1fpsでビューを1024ドル\ Times 1024 $でレンダリングし、24.65/110.82/51.27のPSNR/LPIPS*/FIDを達成します。
– レンダリング品質のアート。

要約(オリジナル)

Generalizable rendering of an animatable human avatar from sparse inputs relies on data priors and inductive biases extracted from training on large data to avoid scene-specific optimization and to enable fast reconstruction. This raises two main challenges: First, unlike iterative gradient-based adjustment in scene-specific optimization, generalizable methods must reconstruct the human shape representation in a single pass at inference time. Second, rendering is preferably computationally efficient yet of high resolution. To address both challenges we augment the recently proposed dual shape representation, which combines the benefits of a mesh and Gaussian points, in two ways. To improve reconstruction, we propose an iterative feedback update framework, which successively improves the canonical human shape representation during reconstruction. To achieve computationally efficient yet high-resolution rendering, we study a coupled-multi-resolution Gaussians-on-Mesh representation. We evaluate the proposed approach on the challenging THuman2.0, XHuman and AIST++ data. Our approach reconstructs an animatable representation from sparse inputs in less than 1s, renders views with 95.1FPS at $1024 \times 1024$, and achieves PSNR/LPIPS*/FID of 24.65/110.82/51.27 on THuman2.0, outperforming the state-of-the-art in rendering quality.

arxiv情報

著者 Jing Wen,Alexander G. Schwing,Shenlong Wang
発行日 2025-02-13 18:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク