要約
近年、単眼ビデオから鮮やかなオーディオ主導のポートレートを作成することが大きく進歩しました。
ただし、作成されたビデオ アバターを背景や照明条件が異なる他のシナリオにシームレスに適応させる方法は未解決のままです。
一方、既存のリライティング研究は主に動的にライティングされたデータやマルチビュー データに依存しており、ビデオ ポートレートを作成するにはコストが高すぎます。
このギャップを埋めるために、単眼ビデオからリライト可能なオーディオ駆動のトーキング ポートレートを生成する新しいフレームワークである ReliTalk を提案します。
私たちの重要な洞察は、暗黙的に学習された音声駆動の顔の法線と画像からポートレートの反射率を分解することです。
具体的には、音声特徴から派生した 3D 顔の事前分布を利用して、暗黙的な関数を通じて繊細な法線マップを予測します。
これらの最初に予測された法線は、指定されたビデオの照明条件を動的に推定することにより、反射率分解において重要な役割を果たします。
さらに、立体的な顔表現は、シミュレートされた複数の照明条件下での同一性一貫性損失を使用して改良され、単一の単眼ビデオから利用できる限られたビューによって引き起こされる不適切な問題に対処します。
広範な実験により、実際のデータセットと合成データセットの両方で私たちが提案したフレームワークの優位性が検証されています。
私たちのコードは https://github.com/arthur-qiu/ReliTalk でリリースされています。
要約(オリジナル)
Recent years have witnessed great progress in creating vivid audio-driven portraits from monocular videos. However, how to seamlessly adapt the created video avatars to other scenarios with different backgrounds and lighting conditions remains unsolved. On the other hand, existing relighting studies mostly rely on dynamically lighted or multi-view data, which are too expensive for creating video portraits. To bridge this gap, we propose ReliTalk, a novel framework for relightable audio-driven talking portrait generation from monocular videos. Our key insight is to decompose the portrait’s reflectance from implicitly learned audio-driven facial normals and images. Specifically, we involve 3D facial priors derived from audio features to predict delicate normal maps through implicit functions. These initially predicted normals then take a crucial part in reflectance decomposition by dynamically estimating the lighting condition of the given video. Moreover, the stereoscopic face representation is refined using the identity-consistent loss under simulated multiple lighting conditions, addressing the ill-posed problem caused by limited views available from a single monocular video. Extensive experiments validate the superiority of our proposed framework on both real and synthetic datasets. Our code is released in https://github.com/arthur-qiu/ReliTalk.
arxiv情報
著者 | Haonan Qiu,Zhaoxi Chen,Yuming Jiang,Hang Zhou,Xiangyu Fan,Lei Yang,Wayne Wu,Ziwei Liu |
発行日 | 2023-09-05 17:59:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google