Motion Robust High-Speed Light-weighted Object Detection with Event Camera

要約

イベント カメラは、冗長な視覚情報を破棄する非常に高い時間分解能で広いダイナミック レンジのイベント ストリームを生成するため、オブジェクト検出タスクに新しい可能性がもたらされます。
しかし、ディープラーニング手法を使用してイベント カメラをオブジェクト検出タスクに適用する既存の方法には、まだ多くの問題があります。
まず、既存の方法では、グローバル同期時間ウィンドウと時間分解能のために、イベント カメラの動きに対して異なる速度を持つオブジェクトを考慮することができません。
第二に、既存の方法のほとんどは、大きなパラメータのニューラル ネットワークに依存しています。これは、大きな計算負荷と低い推論速度を意味するため、イベント ストリームの高い時間分解能とは対照的です。
私たちの仕事では、シンプルだが効果的なデータ拡張方法を使用して、Agile Event Detector (AED) と呼ばれる高速軽量検出器を設計します。
また、Temporal Active Focus (TAF) と呼ばれるイベント ストリーム表現テンソルを提案します。これは、イベント ストリーム データの非同期生成を最大限に活用し、移動オブジェクトの動きに対してロバストです。
また、手間をかけずに施工することができます。
さらに、AED 検出器の入力層で TAF テンソルの豊富な時間情報を抽出するために、分岐フォールディング モジュール (BFM) と呼ばれるモジュールを提案します。
完全な Prophesee GEN1 自動車検出データセットと部分的な注釈付きの Prophesee 1 MEGAPIXEL 自動車検出データセットの 2 つの典型的なリアルシーン イベント カメラ オブジェクト検出データセットで実験を行います。
実験は、我々の方法が精度、速度、および同時にパラメータの数の点で競争力があることを示しています。
また、オプティカル フロー密度メトリックに基づいてオブジェクトを複数のモーション レベルに分類することにより、カメラに対して異なる速度を持つオブジェクトに対するこの方法の堅牢性を示しました。

要約(オリジナル)

The event camera produces a large dynamic range event stream with a very high temporal resolution discarding redundant visual information, thus bringing new possibilities for object detection tasks. However, the existing methods of applying the event camera to object detection tasks using deep learning methods still have many problems. First, existing methods cannot take into account objects with different velocities relative to the motion of the event camera due to the global synchronized time window and temporal resolution. Second, most of the existing methods rely on large parameter neural networks, which implies a large computational burden and low inference speed, thus contrary to the high temporal resolution of the event stream. In our work, we design a high-speed lightweight detector called Agile Event Detector (AED) with a simple but effective data augmentation method. Also, we propose an event stream representation tensor called Temporal Active Focus (TAF), which takes full advantage of the asynchronous generation of event stream data and is robust to the motion of moving objects. It can also be constructed without much time-consuming. We further propose a module called the Bifurcated Folding Module (BFM) to extract the rich temporal information in the TAF tensor at the input layer of the AED detector. We conduct our experiments on two typical real-scene event camera object detection datasets: the complete Prophesee GEN1 Automotive Detection Dataset and the Prophesee 1 MEGAPIXEL Automotive Detection Dataset with partial annotation. Experiments show that our method is competitive in terms of accuracy, speed, and the number of parameters simultaneously. Also by classifying the objects into multiple motion levels based on the optical flow density metric, we illustrated the robustness of our method for objects with different velocities relative to the camera.

arxiv情報

著者 Bingde Liu
発行日 2022-08-24 15:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク