Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors

要約

この論文では、$8\times8$ ピクセルのビデオ シーケンスから何が得られるかという興味深い問題を探ります。
驚くべきことに、それはかなり多いことが判明しました。
この $8\times8$ のビデオを適切な音声と画像の事前分布セットで処理すると、フルレングスの $256\times256$ のビデオが得られることを示します。
私たちは、新しいオーディオビジュアル アップサンプリング ネットワークを使用して、非常に低解像度の入力のこの $32\times$ スケーリングを実現します。
事前音声は、基本的な顔の詳細と正確な唇の形状を復元するのに役立ち、単一の高解像度のターゲット ID 事前画像は、豊富な外観の詳細を提供します。
私たちのアプローチは、エンドツーエンドの多段階フレームワークです。
第 1 段階では粗い中間出力ビデオを生成します。これを使用して、単一のターゲット ID 画像をアニメーション化し、現実的で正確かつ高品質の出力を生成できます。
私たちのアプローチはシンプルで、以前の超解像法と比較して非常に優れています (FID スコアが $8\times$ 改善)。
また、モデルを話し顔のビデオ圧縮に拡張し、以前の最先端技術よりもビット/ピクセルの点で $3.5\times$ の改善が得られることを示しています。
私たちのネットワークからの結果は、広範なアブレーション実験を通じて徹底的に分析されています(論文および補足資料)。
また、コードとモデルとともにデモ ビデオを Web サイト (\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/talking-face-video-upsampling}) で提供しています。

要約(オリジナル)

In this paper, we explore an interesting question of what can be obtained from an $8\times8$ pixel video sequence. Surprisingly, it turns out to be quite a lot. We show that when we process this $8\times8$ video with the right set of audio and image priors, we can obtain a full-length, $256\times256$ video. We achieve this $32\times$ scaling of an extremely low-resolution input using our novel audio-visual upsampling network. The audio prior helps to recover the elemental facial details and precise lip shapes and a single high-resolution target identity image prior provides us with rich appearance details. Our approach is an end-to-end multi-stage framework. The first stage produces a coarse intermediate output video that can be then used to animate single target identity image and generate realistic, accurate and high-quality outputs. Our approach is simple and performs exceedingly well (an $8\times$ improvement in FID score) compared to previous super-resolution methods. We also extend our model to talking-face video compression, and show that we obtain a $3.5\times$ improvement in terms of bits/pixel over the previous state-of-the-art. The results from our network are thoroughly analyzed through extensive ablation experiments (in the paper and supplementary material). We also provide the demo video along with code and models on our website: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/talking-face-video-upsampling}.

arxiv情報

著者 Sindhu B Hegde,Rudrabha Mukhopadhyay,Vinay P Namboodiri,C. V. Jawahar
発行日 2022-08-17 07:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク