SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams

要約

ぼやけた入力から一連の鮮明な画像を再構成することは、キャプチャされたシーンへの洞察を高めるために非常に重要ですが、画像に埋め込まれた時間的特徴が限られているため、重大な課題が生じます。
最大 40,000 Hz のレートでサンプリングするスパイク カメラは、動きの特徴を捉えるのに効果的であり、この不適切な問題の解決に有益であることが証明されています。
それにもかかわらず、既存の手法は教師あり学習パラダイムに分類され、合成トレーニング データ ドメインから分岐する現実世界のシナリオに適用すると、顕著なパフォーマンスの低下に悩まされます。
さらに、再構成された画像の品質は、実際のシーンとは本質的に異なる動き解析補間に基づいて生成された画像によって制限され、実際の高速シナリオにおけるこれらの方法の一般化能力に影響を与えます。
これらの課題に対処するために、スパイクガイドによるモーションブレ除去のタスク用の最初の自己教師ありフレームワークを提案します。
私たちのアプローチは、スパイク ストリーム、ぼやけた画像、およびそれらに対応する鮮明なシーケンスの間の理論的な関係を調査するスパイク ガイド付きブレ除去モデルの定式化から始まります。
その後、ぼけ除去モデルで発生するスパイク ノイズと空間解像度の不一致の問題を軽減するために、自己監視型カスケード フレームワークを開発しました。
知識の蒸留と再ブラー損失を使用して、元の入力との明るさとテクスチャの一貫性を備えた高品質のシーケンスを生成する軽量のブラー除去ネットワークをさらに設計します。
現実世界のデータセットとスパイクを含む合成データセットに対して行われた定量的および定性的な実験により、提案されたフレームワークの優れた一般化が検証されます。
私たちのコード、データ、トレーニングされたモデルは \url{https://github.com/chenkang455/S-SDM} で入手できます。

要約(オリジナル)

Reconstructing a sequence of sharp images from the blurry input is crucial for enhancing our insights into the captured scene and poses a significant challenge due to the limited temporal features embedded in the image. Spike cameras, sampling at rates up to 40,000 Hz, have proven effective in capturing motion features and beneficial for solving this ill-posed problem. Nonetheless, existing methods fall into the supervised learning paradigm, which suffers from notable performance degradation when applied to real-world scenarios that diverge from the synthetic training data domain. Moreover, the quality of reconstructed images is capped by the generated images based on motion analysis interpolation, which inherently differs from the actual scene, affecting the generalization ability of these methods in real high-speed scenarios. To address these challenges, we propose the first self-supervised framework for the task of spike-guided motion deblurring. Our approach begins with the formulation of a spike-guided deblurring model that explores the theoretical relationships among spike streams, blurry images, and their corresponding sharp sequences. We subsequently develop a self-supervised cascaded framework to alleviate the issues of spike noise and spatial-resolution mismatching encountered in the deblurring model. With knowledge distillation and re-blurring loss, we further design a lightweight deblur network to generate high-quality sequences with brightness and texture consistency with the original input. Quantitative and qualitative experiments conducted on our real-world and synthetic datasets with spikes validate the superior generalization of the proposed framework. Our code, data and trained models will be available at \url{https://github.com/chenkang455/S-SDM}.

arxiv情報

著者 Kang Chen,Shiyan Chen,Jiyuan Zhang,Baoyue Zhang,Yajing Zheng,Tiejun Huang,Zhaofei Yu
発行日 2024-03-14 15:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク