GPAvatar: Generalizable and Precise Head Avatar from Image(s)

要約

頭部アバターの再構成は、仮想現実、オンライン会議、ゲーム、映画業界のアプリケーションにとって重要であり、コンピューター ビジョン コミュニティ内で大きな注目を集めています。
この分野の基本的な目的は、頭部アバターを忠実に再現し、表情や姿勢を精密に制御することです。
既存の手法は、2D ベースのワーピング、メッシュベース、ニューラル レンダリングのアプローチに分類されており、マルチビューの一貫性の維持、顔以外の情報の組み込み、新しいアイデンティティへの一般化において課題を抱えています。
この論文では、単一の前方パスで 1 つまたは複数の画像から 3D 頭部アバターを再構成する GPAvatar というフレームワークを提案します。
この研究の重要なアイデアは、点群によって駆動される動的ポイントベースの表現フィールドを導入して、表現を正確かつ効果的にキャプチャすることです。
さらに、トライプレーン正準フィールドでマルチ トライプレーン アテンション (MTA) 融合モジュールを使用し、複数の入力画像からの情報を活用します。
提案手法は忠実な同一性再構築、精密な表現制御、多視点一貫性を実現しており、自由視点レンダリングや新規視点合成において有望な結果が得られることが実証されている。

要約(オリジナル)

Head avatar reconstruction, crucial for applications in virtual reality, online meetings, gaming, and film industries, has garnered substantial attention within the computer vision community. The fundamental objective of this field is to faithfully recreate the head avatar and precisely control expressions and postures. Existing methods, categorized into 2D-based warping, mesh-based, and neural rendering approaches, present challenges in maintaining multi-view consistency, incorporating non-facial information, and generalizing to new identities. In this paper, we propose a framework named GPAvatar that reconstructs 3D head avatars from one or several images in a single forward pass. The key idea of this work is to introduce a dynamic point-based expression field driven by a point cloud to precisely and effectively capture expressions. Furthermore, we use a Multi Tri-planes Attention (MTA) fusion module in the tri-planes canonical field to leverage information from multiple input images. The proposed method achieves faithful identity reconstruction, precise expression control, and multi-view consistency, demonstrating promising results for free-viewpoint rendering and novel view synthesis.

arxiv情報

著者 Xuangeng Chu,Yu Li,Ailing Zeng,Tianyu Yang,Lijian Lin,Yunfei Liu,Tatsuya Harada
発行日 2024-01-18 18:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク