Neural Rendering of Humans in Novel View and Pose from Monocular Video

要約

タイトル:単眼カメラの動画から、新しい視点とポーズでの人物の光学的描写を生成する神経描写

要約:

・単眼動画を入力に、新しい視点やポーズにおいての光学的描写を生成する新しい手法を提案する。
・この分野で最近進んだ内容はあり、いくつかの手法が動的なシーンを探索する共有カノニカルニューラル放射場を探求しているが、思わぬポーズの制御モデルを学習することは難しいという問題を解決するために、以下2点を行う有効な方法を提案する。
a. 複数枚の観測画像を統合する。
b. 各々のフレームでの外観をエンコードする。
・上記を達成するには、ヒトの形状をモデル化する人体姿勢と、ヒトを部分的にカバーする点群を入力として使用する。
・私たちのアプローチは、複数枚のフレームにアンカーされた共有潜在コードのセットを同時に学習し、人体の形状をモデル化するヒトポーズベースのコードと、各フレームで生成された不完全な点群と予測された深度にアンカーされた外観依存コードを学習することで実現される。
・私たちは、クエリフレームで非表示領域を回復するために、クエリフレームのポイントと自動選択されたキーフレームからトラックされた体のポイントの特徴を統合するために時間的トランスフォーマーを使用する。
・ZJU-MoCapを含むさまざまなデータセットの動的な人物のさまざまなシーケンスにおける実験から、私たちの手法は、単眼動画を入力とした場合において、思わぬポーズと新しい視点で既存の手法よりも優れた結果を示すことが明らかになった。

要約(オリジナル)

We introduce a new method that generates photo-realistic humans under novel views and poses given a monocular video as input. Despite the significant progress recently on this topic, with several methods exploring shared canonical neural radiance fields in dynamic scene scenarios, learning a user-controlled model for unseen poses remains a challenging task. To tackle this problem, we introduce an effective method to a) integrate observations across several frames and b) encode the appearance at each individual frame. We accomplish this by utilizing both the human pose that models the body shape as well as point clouds that partially cover the human as input. Our approach simultaneously learns a shared set of latent codes anchored to the human pose among several frames, and an appearance-dependent code anchored to incomplete point clouds generated by each frame and its predicted depth. The former human pose-based code models the shape of the performer whereas the latter point cloud-based code predicts fine-level details and reasons about missing structures at the unseen poses. To further recover non-visible regions in query frames, we employ a temporal transformer to integrate features of points in query frames and tracked body points from automatically-selected key frames. Experiments on various sequences of dynamic humans from different datasets including ZJU-MoCap show that our method significantly outperforms existing approaches under unseen poses and novel views given monocular videos as input.

arxiv情報

著者 Tiantian Wang,Nikolaos Sarafianos,Ming-Hsuan Yang,Tony Tung
発行日 2023-04-20 04:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク