DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

要約

タイトル:DAMO-StreamNet:自律走行におけるストリーミング知覚の最適化

要約:

– ストリーミング知覚は自律走行にとって重要な側面であるが、既存の研究では十分に探究されていない。
– DAMO-StreamNetは、YOLOシリーズの最新の進歩を組み合わせ、空間的および時間的知覚メカニズムの包括的な分析を行い、最先端のソリューションを提供する最適化されたフレームワークである。
– DAMO-StreamNetの主な革新点は、(1)可変異畳み込みを組み込んだ堅牢なネック構造で、受容野と特徴アライメント能力を向上させること、(2)短距離の意味的特徴と長距離の時間的特徴を統合したデュアルブランチ構造で、運動状態予測精度を向上させること、(3)ロジットレベルの蒸留により、教師および学生ネットワークのロジットを意味空間で整列させて効率的に最適化すること、(4)リアルタイム予測メカニズムで、現在のフレームでサポートフレーム特徴を更新し、推論中のシームレスなストリーミング知覚を保証すること。
– 実験により、DAMO-StreamNetは、追加データを使用せずに、37.8%(通常サイズ(600、960))および43.3%(大サイズ(1200、1920))のsAPを達成し、既存の最先端方法を上回ることが示された。
– DAMO-StreamNetは、リアルタイム知覚に道を開き、ドローンやロボットなどの様々な自律システムに適用することができる。コードはhttps://github.com/zhiqic/DAMO-StreamNetで入手可能。

要約(オリジナル)

Real-time perception, or streaming perception, is a crucial aspect of autonomous driving that has yet to be thoroughly explored in existing research. To address this gap, we present DAMO-StreamNet, an optimized framework that combines recent advances from the YOLO series with a comprehensive analysis of spatial and temporal perception mechanisms, delivering a cutting-edge solution. The key innovations of DAMO-StreamNet are: (1) A robust neck structure incorporating deformable convolution, enhancing the receptive field and feature alignment capabilities. (2) A dual-branch structure that integrates short-path semantic features and long-path temporal features, improving motion state prediction accuracy. (3) Logits-level distillation for efficient optimization, aligning the logits of teacher and student networks in semantic space. (4) A real-time forecasting mechanism that updates support frame features with the current frame, ensuring seamless streaming perception during inference. Our experiments demonstrate that DAMO-StreamNet surpasses existing state-of-the-art methods, achieving 37.8% (normal size (600, 960)) and 43.3% (large size (1200, 1920)) sAP without using extra data. This work not only sets a new benchmark for real-time perception but also provides valuable insights for future research. Additionally, DAMO-StreamNet can be applied to various autonomous systems, such as drones and robots, paving the way for real-time perception. The code is available at https://github.com/zhiqic/DAMO-StreamNet.

arxiv情報

著者 Jun-Yan He,Zhi-Qi Cheng,Chenyang Li,Wangmeng Xiang,Binghui Chen,Bin Luo,Yifeng Geng,Xuansong Xie
発行日 2023-04-05 00:25:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO パーマリンク