ReBotNet: Fast Real-time Video Enhancement

要約

ほとんどのビデオ復元ネットワークは低速で、計算負荷が高く、リアルタイムのビデオ強化には使用できません。
この作業では、ライブ ビデオ通話やビデオ ストリームなどの実用的なユースケース向けに、リアルタイムのビデオ強化を実行するための効率的で高速なフレームワークを設計します。
Recurrent Bottleneck Mixer Network (ReBotNet) と呼ばれる提案手法は、デュアル ブランチ フレームワークを採用しています。
最初のブランチは、ConvNext ベースのエンコーダーを使用して空間次元と時間次元に沿って入力フレームをトークン化し、ボトルネック ミキサーを使用してこれらの抽象トークンを処理することにより、時空間特徴を学習します。
時間的な一貫性をさらに向上させるために、2 番目の分岐では、個々のフレームから抽出されたトークンに対してミキサーを直接使用します。
次に、共通のデコーダが 2 つの分岐からの特徴をマージして、強化されたフレームを予測します。
さらに、最後のフレームの予測を活用して現在のフレームを効率的に強化し、時間的な一貫性を向上させる反復トレーニング アプローチを提案します。
私たちの方法を評価するために、現実世界のビデオ通話とストリーミングのシナリオをエミュレートする 2 つの新しいデータセットをキュレートし、複数のデータセットで広範な結果を示します。ReBotNet は、計算量が少なく、メモリ要件が少なく、推論時間が速いため、既存のアプローチよりも優れています。

要約(オリジナル)

Most video restoration networks are slow, have high computational load, and can’t be used for real-time video enhancement. In this work, we design an efficient and fast framework to perform real-time video enhancement for practical use-cases like live video calls and video streams. Our proposed method, called Recurrent Bottleneck Mixer Network (ReBotNet), employs a dual-branch framework. The first branch learns spatio-temporal features by tokenizing the input frames along the spatial and temporal dimensions using a ConvNext-based encoder and processing these abstract tokens using a bottleneck mixer. To further improve temporal consistency, the second branch employs a mixer directly on tokens extracted from individual frames. A common decoder then merges the features form the two branches to predict the enhanced frame. In addition, we propose a recurrent training approach where the last frame’s prediction is leveraged to efficiently enhance the current frame while improving temporal consistency. To evaluate our method, we curate two new datasets that emulate real-world video call and streaming scenarios, and show extensive results on multiple datasets where ReBotNet outperforms existing approaches with lower computations, reduced memory requirements, and faster inference time.

arxiv情報

著者 Jeya Maria Jose Valanarasu,Rahul Garg,Andeep Toor,Xin Tong,Weijuan Xi,Andreas Lugmayr,Vishal M. Patel,Anne Menini
発行日 2023-03-23 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク