Rethinking High-speed Image Reconstruction Framework with Spike Camera

要約

スパイクカメラは、革新的な神経型デバイスとして、連続スパイクストリームを生成して、従来のRGBカメラよりも帯域幅が低く、ダイナミックレンジが高い高速シーンをキャプチャします。
ただし、低光条件下でのスパイク入力から高品質の画像を再構築することは依然として困難です。
従来の学習ベースの方法は、多くの場合、トレーニングの監督として合成データセットに依存しています。
それでも、これらのアプローチは、低光の環境で発射された騒々しいスパイクを扱うときにflerteし、現実世界のデータセットでさらなるパフォーマンスの劣化につながります。
この現象は、主に不十分なノイズモデリングと合成データセットと実際のデータセットの間のドメインギャップによるものであり、その結果、テクスチャが不明な回復、過度のノイズ、輝度が低下します。
これらの課題に対処するために、従来のトレーニングパラダイムを超えた新しいスパイク間再構成フレームワークSpikeClipを紹介します。
Clipモデルの強力な機能を活用して、テキストと画像を調整するために、キャプチャされたシーンのテキストの説明と、監督として、より高品質の高品質のデータセットを組み込みます。
実際の低光光データセットU-CaltechとU-Cifarの実験は、SpikeClipがテクスチャの詳細と回収された画像の輝度バランスを大幅に強化することを示しています。
さらに、再構築された画像は、下流のタスクに必要なより広範な視覚的特徴とよく調整されており、挑戦的な環境でより堅牢で多用途のパフォーマンスを確保します。

要約(オリジナル)

Spike cameras, as innovative neuromorphic devices, generate continuous spike streams to capture high-speed scenes with lower bandwidth and higher dynamic range than traditional RGB cameras. However, reconstructing high-quality images from the spike input under low-light conditions remains challenging. Conventional learning-based methods often rely on the synthetic dataset as the supervision for training. Still, these approaches falter when dealing with noisy spikes fired under the low-light environment, leading to further performance degradation in the real-world dataset. This phenomenon is primarily due to inadequate noise modelling and the domain gap between synthetic and real datasets, resulting in recovered images with unclear textures, excessive noise, and diminished brightness. To address these challenges, we introduce a novel spike-to-image reconstruction framework SpikeCLIP that goes beyond traditional training paradigms. Leveraging the CLIP model’s powerful capability to align text and images, we incorporate the textual description of the captured scene and unpaired high-quality datasets as the supervision. Our experiments on real-world low-light datasets U-CALTECH and U-CIFAR demonstrate that SpikeCLIP significantly enhances texture details and the luminance balance of recovered images. Furthermore, the reconstructed images are well-aligned with the broader visual features needed for downstream tasks, ensuring more robust and versatile performance in challenging environments.

arxiv情報

著者 Kang Chen,Yajing Zheng,Tiejun Huang,Zhaofei Yu
発行日 2025-03-04 14:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク