Low-Latency Scalable Streaming for Event-Based Vision

要約

最近、高速、低消費電力のビデオ キャプチャ用の新しい「イベントベース」カメラ センサーの台頭が目の当たりにしました。
これらのセンサーは、個別の画像フレームを記録するのではなく、特定のピクセルの明るさの変化が特定のしきい値を超えた場合にのみ、マイクロ秒の精度で非同期「イベント」タプルを出力します。
これらのセンサーは魅力的な新しいコンピューター ビジョン アプリケーションを可能にしましたが、これらのアプリケーションは多くの場合、高価で電力を大量に消費する GPU システムを必要とするため、イベント カメラが最適化されている低電力デバイスへの展開には互換性がありません。
受信機主導のレート適応は最新のビデオ ストリーミング ソリューションの重要な機能ですが、このトピックはイベントベースのビジョン システムの領域では十分に研究されていません。
現実世界のイベント カメラ データセットで、最先端の物体検出アプリケーションが劇的なデータ損失に対して回復力があること、およびこの損失が各時間ウィンドウの終わりに向けて重み付けされる可能性があることを最初に実証します。
次に、オブジェクト検出パフォーマンスと低遅延を優先した、Media Over QUIC に基づくイベントベースのデータのスケーラブルなストリーミング方法を提案します。
アプリケーション サーバーは、複数のストリームにわたって補完的なイベント データを同時に受信し、必要に応じてストリームをドロップして一定の遅延を維持できます。
小規模ネットワークでのエンドツーエンド送信の遅延目標を 5 ミリ秒とすると、検出 mAP の平均減少率は 0.36 という低さになります。
50 ミリ秒というより緩和された遅延目標では、平均 mAP の減少が 0.19 という低さであることがわかります。

要約(オリジナル)

Recently, we have witnessed the rise of novel “event-based” camera sensors for high-speed, low-power video capture. Rather than recording discrete image frames, these sensors output asynchronous “event” tuples with microsecond precision, only when the brightness change of a given pixel exceeds a certain threshold. Although these sensors have enabled compelling new computer vision applications, these applications often require expensive, power-hungry GPU systems, rendering them incompatible for deployment on the low-power devices for which event cameras are optimized. Whereas receiver-driven rate adaptation is a crucial feature of modern video streaming solutions, this topic is underexplored in the realm of event-based vision systems. On a real-world event camera dataset, we first demonstrate that a state-of-the-art object detection application is resilient to dramatic data loss, and that this loss may be weighted towards the end of each temporal window. We then propose a scalable streaming method for event-based data based on Media Over QUIC, prioritizing object detection performance and low latency. The application server can receive complementary event data across several streams simultaneously, and drop streams as needed to maintain a certain latency. With a latency target of 5 ms for end-to-end transmission across a small network, we observe an average reduction in detection mAP as low as 0.36. With a more relaxed latency target of 50 ms, we observe an average mAP reduction as low as 0.19.

arxiv情報

著者 Andrew Hamara,Benjamin Kilpatrick,Alex Baratta,Brendon Kofink,Andrew C. Freeman
発行日 2024-12-13 15:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.NI パーマリンク