Adapting MIMO video restoration networks to low latency constraints

要約

MIMO (複数入力、複数出力) アプローチは、ビデオ復元問題に対するニューラル ネットワーク アーキテクチャの最近の傾向であり、各ネットワーク評価により複数の出力フレームが生成されます。
ビデオは、独立して処理されるオーバーラップしないフレームのスタックに分割されるため、出力品質と計算コストの間に非常に魅力的なトレードオフが生じます。
この作業では、利用可能な将来のフレームの数を制限することにより、低遅延設定に焦点を当てます。
MIMO アーキテクチャには、これまでほとんど注目されていなかった問題があることがわかりました。つまり、(1) 時間的受容野の減少により、特にスタックの境界にあるフレームでパフォーマンスが大幅に低下する、(2) 強力な時間的不連続性がある
スタック遷移で、段階的なモーションアーティファクトが発生します。
我々は、これらの問題を軽減するための 2 つの単純な解決策を提案します。1 つは、時間的受容野を暗黙的に増加させることで出力品質を高めるための MIMO スタック間での反復、もう 1 つはスタック遷移における時間的不連続性を滑らかにするための出力スタックのオーバーラップです。
これらの変更は、あらゆる MIMO アーキテクチャに適用できます。
私たちは、計算コストが異なる 3 つの最先端のビデオノイズ除去ネットワークでそれらをテストしました。
提案された貢献により、再構成エラーと時間的一貫性の両方の観点から、低遅延ネットワークに新たな最先端技術がもたらされます。
追加の貢献として、標準ベンチマークでは明らかではない時間的一貫性の問題を強調するドローン映像で構成される新しいベンチマークを紹介します。

要約(オリジナル)

MIMO (multiple input, multiple output) approaches are a recent trend in neural network architectures for video restoration problems, where each network evaluation produces multiple output frames. The video is split into non-overlapping stacks of frames that are processed independently, resulting in a very appealing trade-off between output quality and computational cost. In this work we focus on the low-latency setting by limiting the number of available future frames. We find that MIMO architectures suffer from problems that have received little attention so far, namely (1) the performance drops significantly due to the reduced temporal receptive field, particularly for frames at the borders of the stack, (2) there are strong temporal discontinuities at stack transitions which induce a step-wise motion artifact. We propose two simple solutions to alleviate these problems: recurrence across MIMO stacks to boost the output quality by implicitly increasing the temporal receptive field, and overlapping of the output stacks to smooth the temporal discontinuity at stack transitions. These modifications can be applied to any MIMO architecture. We test them on three state-of-the-art video denoising networks with different computational cost. The proposed contributions result in a new state-of-the-art for low-latency networks, both in terms of reconstruction error and temporal consistency. As an additional contribution, we introduce a new benchmark consisting of drone footage that highlights temporal consistency issues that are not apparent in the standard benchmarks.

arxiv情報

著者 Valéry Dewil,Zhe Zheng,Arnaud Barral,Lara Raad,Nao Nicolas,Ioannis Cassagne,Jean-michel Morel,Gabriele Facciolo,Bruno Galerne,Pablo Arias
発行日 2024-08-22 14:36:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク