要約
スパイクカメラなどの神経型の視覚システムは、動的な条件下で透明なテクスチャをキャプチャする能力により、かなりの注目を集めています。
この機能は、運動と開口部のぼやけに関連する問題を効果的に軽減します。
ただし、密な空間情報を提供する従来のRGBモダリティとは対照的に、これらのシステムは、一時的に豊富な視覚ストリームのトレードオフとして、バイナリ、空間的スパースフレームを生成します。
これに関連して、生成モデルは、スパースデータの固有の制限に対処するための有望なソリューションとして現れます。
これらのモデルは、スパイクとRGBの両方のモダリティからの既存の情報の条件付き融合を促進するだけでなく、潜在性の前層に基づいて条件付き生成を可能にします。
この研究では、SpikeGenという名前の堅牢な生成処理フレームワークを紹介します。SpikeGenは、スパイクカメラによってキャプチャされた視覚的なスパイクストリーム用に設計されています。
このフレームワークは、条件付き画像/ビデオの脱生、スパイクストリームからの密なフレーム再構成、高速シーンの小説視聴統合など、混合スパイクRGBモダリティを含む複数のタスクにわたって評価します。
包括的な実験結果に支えられて、生成モデルの潜在的な空間動作能力を活用することで、スパイクストリームの時間的豊富さを完全に活用しながら、空間情報のスパース性に効果的に対処できることを実証し、それによって異なる視覚モダリティの相乗的強化を促進します。
要約(オリジナル)
Neuromorphic Visual Systems, such as spike cameras, have attracted considerable attention due to their ability to capture clear textures under dynamic conditions. This capability effectively mitigates issues related to motion and aperture blur. However, in contrast to conventional RGB modalities that provide dense spatial information, these systems generate binary, spatially sparse frames as a trade-off for temporally rich visual streams. In this context, generative models emerge as a promising solution to address the inherent limitations of sparse data. These models not only facilitate the conditional fusion of existing information from both spike and RGB modalities but also enable the conditional generation based on latent priors. In this study, we introduce a robust generative processing framework named SpikeGen, designed for visual spike streams captured by spike cameras. We evaluate this framework across multiple tasks involving mixed spike-RGB modalities, including conditional image/video deblurring, dense frame reconstruction from spike streams, and high-speed scene novel-view synthesis. Supported by comprehensive experimental results, we demonstrate that leveraging the latent space operation abilities of generative models allows us to effectively address the sparsity of spatial information while fully exploiting the temporal richness of spike streams, thereby promoting a synergistic enhancement of different visual modalities.
arxiv情報
著者 | Gaole Dai,Menghang Dong,Rongyu Zhang,Ruichuan An,Shanghang Zhang,Tiejun Huang |
発行日 | 2025-05-23 15:54:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google