LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception

要約

ストリーミング認識は、自動運転システムの遅延と精度を首尾一貫して考慮する自動運転の現状を報告するタスクです。
ただし、既存のストリーミング認識は、現在および隣接する 2 つのフレームのみを入力として使用して動きのパターンを学習するため、実際の複雑なシーンをモデル化できず、検出結果が失敗します。
この問題を解決するために、LongShortNet と呼ばれるエンドツーエンドのデュアルパス ネットワークを提案します。これは、長期的な時間的動きをキャプチャし、リアルタイムの知覚のために短期的な空間セマンティクスでそれを調整します。
さらに、Long-Short Fusion Module (LSFM) を調査して、時空間機能の融合を調査します。これは、ストリーミング知覚で長期的な時間的機能を拡張する最初の作業です。
提案された LongShortNet を評価し、ベンチマーク データセット Argoverse-HD の既存の方法と比較します。
結果は、提案された LongShortNet が他の最先端の方法よりも優れており、追加の計算コストがほとんどないことを示しています。

要約(オリジナル)

Streaming perception is a task of reporting the current state of autonomous driving, which coherently considers the latency and accuracy of autopilot systems. However, the existing streaming perception only uses the current and adjacent two frames as input for learning the movement patterns, which cannot model actual complex scenes, resulting in failed detection results. To solve this problem, we propose an end-to-end dual-path network dubbed LongShortNet, which captures long-term temporal motion and calibrates it with short-term spatial semantics for real-time perception. Moreover, we investigate a Long-Short Fusion Module (LSFM) to explore spatiotemporal feature fusion, which is the first work to extend long-term temporal in streaming perception. We evaluate the proposed LongShortNet and compare it with existing methods on the benchmark dataset Argoverse-HD. The results demonstrate that the proposed LongShortNet outperforms the other state-of-the-art methods with almost no extra computational cost.

arxiv情報

著者 Chenyang Li,Zhi-Qi Cheng,Jun-Yan He,Pengyu Li,Bin Luo,Han-Yuan Chen,Yifeng Geng,Jin-Peng Lan,Xuansong Xie
発行日 2022-10-27 14:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク