DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

要約

リアルタイム認識、つまりストリーミング認識は自動運転の重要な側面ですが、既存の研究ではまだ十分に調査されていません。
このギャップに対処するために、私たちは、YOLO シリーズの最近の進歩と空間的および時間的認識メカニズムの包括的な分析を組み合わせた最適化されたフレームワークである DAMO-StreamNet を紹介し、最先端のソリューションを提供します。
DAMO-StreamNet の主要な革新は、 (1) 変形可能な畳み込みを組み込んだ堅牢なネック構造により、受容野と特徴の位置合わせ機能が強化されます。 (2) ショートパスの意味論的特徴とロングパスの時間的特徴を統合するデュアルブランチ構造により、改善されます。
運動状態の予測精度。
(3) 効率的な最適化のためのロジットレベルの蒸留。意味論的空間における教師と生徒のネットワークのロジットを調整します。
(4) サポート フレームの特徴を現在のフレームで更新するリアルタイム予測メカニズムにより、推論中のシームレスなストリーミング認識が保証されます。
私たちの実験では、DAMO-StreamNet が既存の最先端の手法を上回り、追加のデータを使用せずに 37.8% (通常サイズ (600、960)) および 43.3% (ラージ サイズ (1200、1920)) の sAP を達成することが実証されました。
この研究は、リアルタイム認識の新しいベンチマークを設定するだけでなく、将来の研究に貴重な洞察を提供します。
さらに、DAMO-StreamNet はドローンやロボットなどのさまざまな自律システムに適用でき、リアルタイム認識への道を開きます。
コードは https://github.com/zhiqic/DAMO-StreamNet にあります。

要約(オリジナル)

Real-time perception, or streaming perception, is a crucial aspect of autonomous driving that has yet to be thoroughly explored in existing research. To address this gap, we present DAMO-StreamNet, an optimized framework that combines recent advances from the YOLO series with a comprehensive analysis of spatial and temporal perception mechanisms, delivering a cutting-edge solution. The key innovations of DAMO-StreamNet are (1) A robust neck structure incorporating deformable convolution, enhancing the receptive field and feature alignment capabilities (2) A dual-branch structure that integrates short-path semantic features and long-path temporal features, improving motion state prediction accuracy. (3) Logits-level distillation for efficient optimization, aligning the logits of teacher and student networks in semantic space. (4) A real-time forecasting mechanism that updates support frame features with the current frame, ensuring seamless streaming perception during inference. Our experiments demonstrate that DAMO-StreamNet surpasses existing state-of-the-art methods, achieving 37.8% (normal size (600, 960)) and 43.3% (large size (1200, 1920)) sAP without using extra data. This work not only sets a new benchmark for real-time perception but also provides valuable insights for future research. Additionally, DAMO-StreamNet can be applied to various autonomous systems, such as drones and robots, paving the way for real-time perception. The code is at https://github.com/zhiqic/DAMO-StreamNet.

arxiv情報

著者 Jun-Yan He,Zhi-Qi Cheng,Chenyang Li,Wangmeng Xiang,Binghui Chen,Bin Luo,Yifeng Geng,Xuansong Xie
発行日 2023-05-20 21:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO パーマリンク