Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis

要約

ビデオからビデオへの合成(Vid2Vid)は、一連のセマンティックマップからフォトリアリスティックなビデオを生成するという驚くべき結果を達成しました。
ただし、このパイプラインは、計算コストが高く、推論の待ち時間が長いという問題があります。これは、1)ネットワークアーキテクチャパラメータ、2)シーケンシャルデータストリームの2つの重要な要素に大きく依存します。
最近、画像ベースの生成モデルのパラメータは、より効率的なネットワークアーキテクチャによって大幅に圧縮されています。
それにもかかわらず、既存の方法は主にネットワークアーキテクチャのスリム化に焦点を当てており、シーケンシャルデータストリームのサイズを無視します。
さらに、時間的コヒーレンスが欠如しているため、ビデオタスクの圧縮には画像ベースの圧縮では不十分です。
この論文では、生成モデルのデータの側面に焦点を当てた時空間圧縮フレームワーク\textbf{Fast-Vid2Vid}を紹介します。
計算リソースを削減し、推論を加速するために、時間次元で最初の試みを行います。
具体的には、入力データストリームを空間的に圧縮し、時間的な冗長性を減らします。
提案された時空間知識の蒸留の後、私たちのモデルは、低解像度のデータストリームを使用してキーフレームを合成できます。
最後に、Fast-Vid2Vidは、わずかな遅延を伴う動き補償によって中間フレームを補間します。
標準のベンチマークでは、Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを達成し、単一のV100GPUで約8倍の計算コストを節約します。

要約(オリジナル)

Video-to-Video synthesis (Vid2Vid) has achieved remarkable results in generating a photo-realistic video from a sequence of semantic maps. However, this pipeline suffers from high computational cost and long inference latency, which largely depends on two essential factors: 1) network architecture parameters, 2) sequential data stream. Recently, the parameters of image-based generative models have been significantly compressed via more efficient network architectures. Nevertheless, existing methods mainly focus on slimming network architectures and ignore the size of the sequential data stream. Moreover, due to the lack of temporal coherence, image-based compression is not sufficient for the compression of the video task. In this paper, we present a spatial-temporal compression framework, \textbf{Fast-Vid2Vid}, which focuses on data aspects of generative models. It makes the first attempt at time dimension to reduce computational resources and accelerate inference. Specifically, we compress the input data stream spatially and reduce the temporal redundancy. After the proposed spatial-temporal knowledge distillation, our model can synthesize key-frames using the low-resolution data stream. Finally, Fast-Vid2Vid interpolates intermediate frames by motion compensation with slight latency. On standard benchmarks, Fast-Vid2Vid achieves around real-time performance as 20 FPS and saves around 8x computational cost on a single V100 GPU.

arxiv情報

著者 Long Zhuo,Guangcong Wang,Shikai Li,Wayne Wu,Ziwei Liu
発行日 2022-07-11 17:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク