要約
ディープラーニングの登場により、画像データからの単眼3D顔再構成に関する最近の最先端技術は、いくつかの印象的な進歩を遂げました。
ただし、主に単一のRGB画像からの入力に焦点を当てており、次の重要な要素を見落としています。a)現在、関心のある顔画像データの大部分は、単一の画像からではなく、豊富な動的情報を含むビデオから発信されています。
。
b)さらに、これらのビデオは通常、何らかの形の口頭でのコミュニケーション(公開講演、電話会議、視聴覚人間とコンピューターの相互作用、インタビュー、映画のモノローグ/ダイアログなど)で個人をキャプチャします。
このようなビデオに既存の3D顔再構成法を適用すると、口の領域の形状と動きの再構成におけるアーティファクトは、音声とうまく一致しないため、しばしば深刻になります。
前述の制限を克服するために、3D口の表情の視覚的な音声認識知覚再構成のための最初の方法を提示します。
これを行うには、「リップレッド」損失を提案します。これは、3Dで再構築されたトーキングヘッドから引き出された知覚が元のビデオ映像の知覚に似るように、フィッティングプロセスをガイドします。
興味深いことに、リップレッド損失は、従来のランドマーク損失、さらには直接3D監視と比較して、口の動きの3D再構築に適していることを示しています。
さらに、考案された方法は、テキストの文字起こしや対応する音声に依存しないため、ラベルのないデータセットでのトレーニングに最適です。
3つの大規模データセットに対する徹底的な客観的評価と、2つのWebベースのユーザー調査による主観的評価を通じて、この方法の効率を検証します。
要約(オリジナル)
The recent state of the art on monocular 3D face reconstruction from image data has made some impressive advancements, thanks to the advent of Deep Learning. However, it has mostly focused on input coming from a single RGB image, overlooking the following important factors: a) Nowadays, the vast majority of facial image data of interest do not originate from single images but rather from videos, which contain rich dynamic information. b) Furthermore, these videos typically capture individuals in some form of verbal communication (public talks, teleconferences, audiovisual human-computer interactions, interviews, monologues/dialogues in movies, etc). When existing 3D face reconstruction methods are applied in such videos, the artifacts in the reconstruction of the shape and motion of the mouth area are often severe, since they do not match well with the speech audio. To overcome the aforementioned limitations, we present the first method for visual speech-aware perceptual reconstruction of 3D mouth expressions. We do this by proposing a ‘lipread’ loss, which guides the fitting process so that the elicited perception from the 3D reconstructed talking head resembles that of the original video footage. We demonstrate that, interestingly, the lipread loss is better suited for 3D reconstruction of mouth movements compared to traditional landmark losses, and even direct 3D supervision. Furthermore, the devised method does not rely on any text transcriptions or corresponding audio, rendering it ideal for training in unlabeled datasets. We verify the efficiency of our method through exhaustive objective evaluations on three large-scale datasets, as well as subjective evaluation with two web-based user studies.
arxiv情報
著者 | Panagiotis P. Filntisis,George Retsinas,Foivos Paraperas-Papantoniou,Athanasios Katsamanis,Anastasios Roussos,Petros Maragos |
発行日 | 2022-07-22 14:07:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google