OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies

要約

イベントベースのセマンティック セグメンテーション (ESS) は、イベント カメラ センシングにとって基本的ではありますが、困難なタスクです。
イベント データの解釈と注釈付けが難しいため、そのスケーラビリティが制限されます。
画像からイベント データへのドメイン適応はこの問題の軽減に役立ちますが、解決するには追加の作業が必要なデータ表現の違いが存在します。
この取り組みでは、初めて画像、テキスト、およびイベント データ ドメインからの情報を相乗効果させ、オープンワールドでアノテーション効率の高い方法でスケーラブルな ESS を可能にする OpenESS を導入しました。
この目標は、意味的に豊富な CLIP 知識を画像とテキストのペアからイベント ストリームに転送することで達成されます。
より優れたクロスモダリティ適応を追求するために、フレームからイベントへの対比蒸留とテキストからイベントへの意味的一貫性の正則化を提案します。
一般的な ESS ベンチマークの実験結果では、私たちのアプローチが既存の手法よりも優れていることが示されました。
特に、イベント ラベルやフレーム ラベルを使用せずに、DDD17 および DSEC-Semantic で 53.93% および 43.31% の mIoU を達成しています。

要約(オリジナル)

Event-based semantic segmentation (ESS) is a fundamental yet challenging task for event camera sensing. The difficulties in interpreting and annotating event data limit its scalability. While domain adaptation from images to event data can help to mitigate this issue, there exist data representational differences that require additional effort to resolve. In this work, for the first time, we synergize information from image, text, and event-data domains and introduce OpenESS to enable scalable ESS in an open-world, annotation-efficient manner. We achieve this goal by transferring the semantically rich CLIP knowledge from image-text pairs to event streams. To pursue better cross-modality adaptation, we propose a frame-to-event contrastive distillation and a text-to-event semantic consistency regularization. Experimental results on popular ESS benchmarks showed our approach outperforms existing methods. Notably, we achieve 53.93% and 43.31% mIoU on DDD17 and DSEC-Semantic without using either event or frame labels.

arxiv情報

著者 Lingdong Kong,Youquan Liu,Lai Xing Ng,Benoit R. Cottereau,Wei Tsang Ooi
発行日 2024-05-08 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク