ESS: Learning Event-based Semantic Segmentation from Still Images

要約

困難なハイ ダイナミック レンジ (HDR) および高速条件で正確なセマンティック情報を取得することは、深刻な画像劣化のため、画像ベースのアルゴリズムにとって未解決の課題のままです。
イベント カメラは、はるかに高いダイナミック レンジを備え、モーション ブラーに対する耐性があるため、これらの課題に確実に対処できます。
それにもかかわらず、イベント カメラを使用したセマンティック セグメンテーションは、主に高品質でラベル付けされたデータセットが不足しているため、まだ初期段階にあります。
この作業では、教師なしドメイン適応 (UDA) を介して既存のラベル付き画像データセットからラベルなしイベントにセマンティック セグメンテーション タスクを直接転送することにより、この問題に取り組む ESS (イベントベースのセマンティック セグメンテーション) を紹介します。
既存のUDAメソッドと比較して、私たちのアプローチは、反復的で動きに不変なイベントの埋め込みを画像の埋め込みに合わせます。
このため、私たちの方法では、ビデオ データも、画像とイベント間のピクセル単位の配置も必要とせず、重要なことに、静止画像からモーションを幻覚させる必要もありません。
さらに、きめ細かいラベルを持つ初の大規模なイベントベースのデータセットである DSEC-Semantic を導入します。
画像ラベルのみを使用した場合、ESS は既存の UDA アプローチよりも優れており、イベント ラベルと組み合わせると、DDD17 と DSEC-Semantic の両方で最先端の監視付きアプローチよりも優れていることを示しています。
最後に、ESS は汎用であり、既存の膨大な量のラベル付き画像データセットのロックを解除し、以前はイベント カメラがアクセスできなかった新しい分野での新しく刺激的な研究の方向性への道を開きます。

要約(オリジナル)

Retrieving accurate semantic information in challenging high dynamic range (HDR) and high-speed conditions remains an open challenge for image-based algorithms due to severe image degradations. Event cameras promise to address these challenges since they feature a much higher dynamic range and are resilient to motion blur. Nonetheless, semantic segmentation with event cameras is still in its infancy which is chiefly due to the lack of high-quality, labeled datasets. In this work, we introduce ESS (Event-based Semantic Segmentation), which tackles this problem by directly transferring the semantic segmentation task from existing labeled image datasets to unlabeled events via unsupervised domain adaptation (UDA). Compared to existing UDA methods, our approach aligns recurrent, motion-invariant event embeddings with image embeddings. For this reason, our method neither requires video data nor per-pixel alignment between images and events and, crucially, does not need to hallucinate motion from still images. Additionally, we introduce DSEC-Semantic, the first large-scale event-based dataset with fine-grained labels. We show that using image labels alone, ESS outperforms existing UDA approaches, and when combined with event labels, it even outperforms state-of-the-art supervised approaches on both DDD17 and DSEC-Semantic. Finally, ESS is general-purpose, which unlocks the vast amount of existing labeled image datasets and paves the way for new and exciting research directions in new fields previously inaccessible for event cameras.

arxiv情報

著者 Zhaoning Sun,Nico Messikommer,Daniel Gehrig,Davide Scaramuzza
発行日 2022-08-02 09:00:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク