Looking Backward: Streaming Video-to-Video Translation with Feature Banks

要約

このペーパーでは、ユーザー プロンプトを使用してリアルタイムのストリーミング ビデオ間 (V2V) 変換を実現する普及モデルである StreamV2V を紹介します。
バッチを使用して限られたフレームを処理する以前の V2V 方法とは異なり、無制限のフレームをサポートするために、ストリーミング方式でフレームを処理することを選択します。
StreamV2V の中心には、現在と過去を関連付ける後ろ向きの原則があります。
これは、過去のフレームからの情報をアーカイブする機能バンクを維持することによって実現されます。
受信フレームに対して、StreamV2V はバンクされたキーと値を含めるようにセルフ アテンションを拡張し、同様の過去の機能を出力に直接融合します。
機能バンクは、保存されている機能と新しい機能を結合することで継続的に更新されるため、コンパクトながら有益な情報が得られます。
StreamV2V は適応性と効率性が際立っており、微調整することなく画像拡散モデルとシームレスに統合されます。
1 つの A100 GPU で 20 FPS を実行でき、FlowVid、CoDeF、Rerender、TokenFlow よりもそれぞれ 15 倍、46 倍、108 倍、158 倍高速です。
定量的なメトリクスとユーザー調査により、StreamV2V の時間的一貫性を維持する優れた能力が確認されています。

要約(オリジナル)

This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V’s exceptional ability to maintain temporal consistency.

arxiv情報

著者 Feng Liang,Akio Kodaira,Chenfeng Xu,Masayoshi Tomizuka,Kurt Keutzer,Diana Marculescu
発行日 2024-05-24 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク