E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning

要約

生物からインスピレーションを得たイベント カメラまたはダイナミック ビジョン センサーは、ピクセルごとの明るさの変化 (イベント ストリームと呼ばれる) を高い時間解像度と高いダイナミック レンジで非同期的にキャプチャすることができます。
しかし、非構造的な時空間イベント ストリームにより、人間の視覚に豊富な意味情報を備えた直観的な視覚化を提供することが困難になります。
これには、イベント ストリームを入力として受け取り、直感的な視覚化のための高品質のビデオ フレームを生成する Event-to-Video (E2V) ソリューションが必要です。
ただし、現在のソリューションは主にデータ駆動型であり、イベント ストリームとビデオ フレームに関連する基礎となる統計情報の事前知識が考慮されていません。
ディープ ニューラル ネットワークの非線形性と一般化機能に大きく依存しているため、シーンが複雑な場合、詳細なテクスチャを再構築するのに苦労します。
この研究では、イベントから高品質のビデオ フレームを生成するように設計された新しい E2V パラダイムである \textbf{E2HQV} を提案します。
このアプローチは、イベント カメラの基本的なイメージング原理から細心の注意を払って導き出された、理論にインスピレーションを得た E2V モデルによって支えられたモデル支援ディープ ラーニング フレームワークを活用しています。
E2HQV の反復コンポーネントにおける状態リセットの問題に対処するために、ビデオ フレームの品質をさらに向上させるための時間シフト埋め込みモジュールも設計しました。
現実世界のイベント カメラ データセットの包括的な評価により、E2HQV を使用した当社のアプローチが、特に最先端のアプローチを上回るパフォーマンスを示していることが実証され、たとえば、一部の評価指標については 2 番目に優れたアプローチを 40\% 以上上回っています。

要約(オリジナル)

The bio-inspired event cameras or dynamic vision sensors are capable of asynchronously capturing per-pixel brightness changes (called event-streams) in high temporal resolution and high dynamic range. However, the non-structural spatial-temporal event-streams make it challenging for providing intuitive visualization with rich semantic information for human vision. It calls for events-to-video (E2V) solutions which take event-streams as input and generate high quality video frames for intuitive visualization. However, current solutions are predominantly data-driven without considering the prior knowledge of the underlying statistics relating event-streams and video frames. It highly relies on the non-linearity and generalization capability of the deep neural networks, thus, is struggling on reconstructing detailed textures when the scenes are complex. In this work, we propose \textbf{E2HQV}, a novel E2V paradigm designed to produce high-quality video frames from events. This approach leverages a model-aided deep learning framework, underpinned by a theory-inspired E2V model, which is meticulously derived from the fundamental imaging principles of event cameras. To deal with the issue of state-reset in the recurrent components of E2HQV, we also design a temporal shift embedding module to further improve the quality of the video frames. Comprehensive evaluations on the real world event camera datasets validate our approach, with E2HQV, notably outperforming state-of-the-art approaches, e.g., surpassing the second best by over 40\% for some evaluation metrics.

arxiv情報

著者 Qiang Qu,Yiran Shen,Xiaoming Chen,Yuk Ying Chung,Tongliang Liu
発行日 2024-01-16 05:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク