要約
スパイク カメラは、高い時間解像度、低遅延、高ダイナミック レンジを備えており、モーション ブラーなどの高速イメージングの課題に対処します。
各ピクセルで光子を個別に捕捉し、時間情報が豊富なバイナリ スパイク ストリームを作成しますが、画像の再構成には困難を伴います。
従来のアルゴリズムと深層学習ベースのアルゴリズムの両方において、現在のアルゴリズムは、豊富な時間的詳細の利用と、再構成された画像の詳細の復元において、依然として改善の必要があります。
これを克服するために、スパイク ストリームから動的シーンを再構築するための新しいモデルである Swin Spikeformer (SwinSF) を紹介します。
SwinSF は、スパイク特徴抽出、時空間特徴抽出、最終再構成モジュールから構成されます。
シフト ウィンドウ セルフ アテンションと提案された時間的スパイク アテンションを組み合わせて、空間と時間の両方のダイナミクスをカプセル化する包括的な特徴抽出を保証し、スパイク ストリームのより堅牢で正確な再構築につながります。
さらに、最新のスパイク カメラの解像度と一致するスパイク画像再構成用の新しい合成データセットを構築し、スパイク カメラ イメージングの最新開発への関連性と適用性を確保します。
実験結果は、提案されたネットワーク SwinSF が新しいベンチマークを設定し、さまざまな解像度にわたる実世界データと合成データの両方を含む一連のデータセットにわたって最先端のパフォーマンスを達成することを示しています。
私たちのコードと提案されたデータセットは間もなく利用可能になります。
要約(オリジナル)
The spike camera, with its high temporal resolution, low latency, and high dynamic range, addresses high-speed imaging challenges like motion blur. It captures photons at each pixel independently, creating binary spike streams rich in temporal information but challenging for image reconstruction. Current algorithms, both traditional and deep learning-based, still need to be improved in the utilization of the rich temporal detail and the restoration of the details of the reconstructed image. To overcome this, we introduce Swin Spikeformer (SwinSF), a novel model for dynamic scene reconstruction from spike streams. SwinSF is composed of Spike Feature Extraction, Spatial-Temporal Feature Extraction, and Final Reconstruction Module. It combines shifted window self-attention and proposed temporal spike attention, ensuring a comprehensive feature extraction that encapsulates both spatial and temporal dynamics, leading to a more robust and accurate reconstruction of spike streams. Furthermore, we build a new synthesized dataset for spike image reconstruction which matches the resolution of the latest spike camera, ensuring its relevance and applicability to the latest developments in spike camera imaging. Experimental results demonstrate that the proposed network SwinSF sets a new benchmark, achieving state-of-the-art performance across a series of datasets, including both real-world and synthesized data across various resolutions. Our codes and proposed dataset will be available soon.
arxiv情報
著者 | Liangyan Jiang,Chuang Zhu,Yanxu Chen |
発行日 | 2024-07-22 15:17:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google