Object-centric Cross-modal Feature Distillation for Event-based Object Detection

要約

イベント カメラは、低遅延や高ダイナミック レンジなどの独自の特性により人気が高まっています。
これらの利点が重要となるタスクの 1 つは、リアルタイムの物体検出です。
ただし、RGB 検出器は、イベント データがまばらで視覚的な詳細が欠落しているため、依然としてイベントベースの検出器よりも優れています。
この論文では、これら 2 つのモダリティ間のパフォーマンスのギャップを縮小するための新しい知識蒸留アプローチを開発します。
この目的を達成するために、我々は、設計により知識の蒸留が最も効果的に機能する領域に焦点を当てることができるクロスモダリティオブジェクト検出蒸留方法を提案します。
これは、特徴マップをオブジェクト中心の特徴と、蒸留に使用される対応するピクセル特徴に繰り返し分離できるオブジェクト中心のスロット アテンション メカニズムを使用することで実現します。
教師モダリティとして位置合わせされたグレースケール画像を使用して、合成および実際のイベント データセットに対する新しい蒸留アプローチを評価します。
オブジェクト中心の蒸留により、イベントベースの生徒オブジェクト検出器のパフォーマンスが大幅に向上し、教師とのパフォーマンスの差がほぼ半分になることを示します。

要約(オリジナル)

Event cameras are gaining popularity due to their unique properties, such as their low latency and high dynamic range. One task where these benefits can be crucial is real-time object detection. However, RGB detectors still outperform event-based detectors due to the sparsity of the event data and missing visual details. In this paper, we develop a novel knowledge distillation approach to shrink the performance gap between these two modalities. To this end, we propose a cross-modality object detection distillation method that by design can focus on regions where the knowledge distillation works best. We achieve this by using an object-centric slot attention mechanism that can iteratively decouple features maps into object-centric features and corresponding pixel-features used for distillation. We evaluate our novel distillation approach on a synthetic and a real event dataset with aligned grayscale images as a teacher modality. We show that object-centric distillation allows to significantly improve the performance of the event-based student object detector, nearly halving the performance gap with respect to the teacher.

arxiv情報

著者 Lei Li,Alexander Liniger,Mario Millhaeusler,Vagia Tsiminaki,Yuanyou Li,Dengxin Dai
発行日 2023-11-09 16:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク