Deformable Convolutions and LSTM-based Flexible Event Frame Fusion Network for Motion Deblurring

要約

イベント カメラは、非同期データ シーケンスを生成するという点で従来の RGB カメラとは異なります。
RGB カメラは固定レートですべてのフレームをキャプチャしますが、イベント カメラはシーン内の変化のみをキャプチャするため、データ出力はまばらで非同期になります。
イベント データには、RGB カメラの動きのブレ除去に利用できる有用な情報が含まれているという事実にもかかわらず、イベントと画像の情報を統合することは依然として課題です。
最近の最先端の CNN ベースのブレ除去ソリューションは、一定期間にわたるイベント データの蓄積に基づいて複数の 2D イベント フレームを生成します。
ただし、これらの技術のほとんどでは、イベント フレームの数が固定され、事前に定義されているため、特に高速で移動する物体が存在する場合や、より長い露光時間が必要な場合に、時間解像度が大幅に低下します。
また、最近のカメラ (携帯電話のカメラなど) は画像の露出時間を動的に設定するため、固定数のイベント フレーム用に開発されたネットワークにはさらなる問題が生じることに注意することも重要です。
これらの課題に対処するために、Long Short-Term Memory (LSTM) ベースのイベント特徴抽出モジュールが開発されました。これにより、動的に変化する数のイベント フレームを使用できるようになります。
これらのモジュールを使用して、最先端のブレ除去ネットワークである Deformable Convolutions と LSTM ベースの Flexible Event Frame Fusion Network (DLEFNet) を構築しました。
これは、照明条件やシーン内の高速で移動するオブジェクトの存在などの要因に応じて露出時間が変化するシナリオに特に役立ちます。
評価結果を通じて、提案された方法が合成データセットと実世界のデータセットのぼけ除去タスクに関して既存の最先端のネットワークよりも優れたパフォーマンスを発揮できることが実証されました。

要約(オリジナル)

Event cameras differ from conventional RGB cameras in that they produce asynchronous data sequences. While RGB cameras capture every frame at a fixed rate, event cameras only capture changes in the scene, resulting in sparse and asynchronous data output. Despite the fact that event data carries useful information that can be utilized in motion deblurring of RGB cameras, integrating event and image information remains a challenge. Recent state-of-the-art CNN-based deblurring solutions produce multiple 2-D event frames based on the accumulation of event data over a time period. In most of these techniques, however, the number of event frames is fixed and predefined, which reduces temporal resolution drastically, particularly for scenarios when fast-moving objects are present or when longer exposure times are required. It is also important to note that recent modern cameras (e.g., cameras in mobile phones) dynamically set the exposure time of the image, which presents an additional problem for networks developed for a fixed number of event frames. A Long Short-Term Memory (LSTM)-based event feature extraction module has been developed for addressing these challenges, which enables us to use a dynamically varying number of event frames. Using these modules, we constructed a state-of-the-art deblurring network, Deformable Convolutions and LSTM-based Flexible Event Frame Fusion Network (DLEFNet). It is particularly useful for scenarios in which exposure times vary depending on factors such as lighting conditions or the presence of fast-moving objects in the scene. It has been demonstrated through evaluation results that the proposed method can outperform the existing state-of-the-art networks for deblurring task in synthetic and real-world data sets.

arxiv情報

著者 Dan Yang,Mehmet Yamac
発行日 2023-06-01 15:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク