要約
我々は、トーキングヘッド生成における最新の進歩を活用し、トーキングヘッドビデオ圧縮のためのエンドツーエンドシステムを提案する。本アルゴリズムでは、ピボットフレームを間欠的に送信し、残りのトーキングヘッド映像はアニメーションで生成される。我々は最先端の顔再演ネットワークを用いて、非ピボットフレームのキーポイントを検出し、受信機に送信する。そして、ピボットフレームをワープさせて非ピボットフレームを再構成するための密なフローを計算する。フルフレームの代わりにキーポイントを送信することで、大幅な圧縮が可能となる。そこで、最適なピボットフレームを一定間隔で適応的に選択し、スムーズな体験を提供する新しいアルゴリズムを提案する。また、受信側ではフレーム補間器を提案し、さらに圧縮率を向上させる。最後に、顔強調ネットワークにより再構成品質を向上させ、世代の鮮明さなどいくつかの側面を大幅に改善する。本手法をベンチマークデータセットで定性・定量的に評価し、複数の圧縮技術と比較する。デモビデオと追加情報を https://cvit.iiit.ac.in/research/projects/cvit-projects/talking-video-compression で公開しています。
要約(オリジナル)
We leverage the modern advancements in talking head generation to propose an end-to-end system for talking head video compression. Our algorithm transmits pivot frames intermittently while the rest of the talking head video is generated by animating them. We use a state-of-the-art face reenactment network to detect key points in the non-pivot frames and transmit them to the receiver. A dense flow is then calculated to warp a pivot frame to reconstruct the non-pivot ones. Transmitting key points instead of full frames leads to significant compression. We propose a novel algorithm to adaptively select the best-suited pivot frames at regular intervals to provide a smooth experience. We also propose a frame-interpolater at the receiver’s end to improve the compression levels further. Finally, a face enhancement network improves reconstruction quality, significantly improving several aspects like the sharpness of the generations. We evaluate our method both qualitatively and quantitatively on benchmark datasets and compare it with multiple compression techniques. We release a demo video and additional information at https://cvit.iiit.ac.in/research/projects/cvit-projects/talking-video-compression.
arxiv情報
| 著者 | Madhav Agarwal,Anchit Gupta,Rudrabha Mukhopadhyay,Vinay P. Namboodiri,C V Jawahar |
| 発行日 | 2022-10-07 16:52:40+00:00 |
| arxivサイト | arxiv_id(pdf) |