Pushing the Limits of Asynchronous Graph-based Object Detection with Event Cameras

要約

イベント カメラ向けの最先端の機械学習手法は、イベントを密な表現として扱い、従来のディープ ニューラル ネットワークで処理します。
そのため、イベント データのスパース性と非同期性を維持できず、ダウンストリーム システムに重大な計算とレイテンシの制約が課せられます。
最近の一連の作業では、グラフ ニューラル ネットワークを使用して効率的かつ非同期的に処理できる、時空間的に進化するグラフとしてイベントをモデル化することで、この問題に取り組んでいます。
これらの研究では、計算量の大幅な削減が示されましたが、計算量を削減するために必要なネットワークの規模が小さく、深さが浅いため、その精度は依然として制限されています。
この作業では、低計算を維持しながら、そのようなモデルの深さと複雑さをスケーリングできるようにするいくつかのアーキテクチャの選択肢を導入することにより、このガラスの天井を打ち破ります。
オブジェクト検出タスクでは、最小のモデルで最大 3.7 分の 1 の計算が行われ、最先端の非同期メソッドよりも 7.4 mAP 優れています。
より大きなモデル サイズにスケーリングする場合でも、最新技術よりも 13% 効率的であり、11.5 mAP も優れています。
その結果、私たちの方法は、高密度グラフ ニューラル ネットワークよりも 3.7 倍速く実行され、フォワード パスあたりわずか 8.4 ミリ秒しかかかりません。
これにより、エッジ ケース シナリオでの効率的かつ正確なオブジェクト検出への扉が開かれます。

要約(オリジナル)

State-of-the-art machine-learning methods for event cameras treat events as dense representations and process them with conventional deep neural networks. Thus, they fail to maintain the sparsity and asynchronous nature of event data, thereby imposing significant computation and latency constraints on downstream systems. A recent line of work tackles this issue by modeling events as spatiotemporally evolving graphs that can be efficiently and asynchronously processed using graph neural networks. These works showed impressive computation reductions, yet their accuracy is still limited by the small scale and shallow depth of their network, both of which are required to reduce computation. In this work, we break this glass ceiling by introducing several architecture choices which allow us to scale the depth and complexity of such models while maintaining low computation. On object detection tasks, our smallest model shows up to 3.7 times lower computation, while outperforming state-of-the-art asynchronous methods by 7.4 mAP. Even when scaling to larger model sizes, we are 13% more efficient than state-of-the-art while outperforming it by 11.5 mAP. As a result, our method runs 3.7 times faster than a dense graph neural network, taking only 8.4 ms per forward pass. This opens the door to efficient, and accurate object detection in edge-case scenarios.

arxiv情報

著者 Daniel Gehrig,Davide Scaramuzza
発行日 2022-11-22 15:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク