要約
占有と 3D オブジェクトの検出は、最新の自動運転システムにおける 2 つの標準タスクとして特徴付けられます。
より高い精度と時間のかかるトレードオフを伴ってそれらを一連のエッジチップに導入するために、現代のアプローチでは、個々のタスク用にスタンドアロンモデルを導入するか、別個のヘッドを備えたマルチタスクパラダイムを設計します。
ただし、導入の問題 (つまり、3D コンボリューション、トランスフォーマーなど) やタスク調整の欠陥に悩まされる可能性があります。
その代わりに、多様なチップへの容易な導入と、ほとんど時間をかけずに高い精度を追求するために、有利なフレームワークを考案する必要があると主張します。
これを目指して、3D オブジェクトの検出と占有予測の間の相互作用のパラダイムを再考し、2D 畳み込みを使用してモデルを再定式化し、それぞれが互いに貢献できるようにタスクに優先順位を付けます。
そこで、我々は、高速な 3D オブジェクト検出および占有予測 (UltimateDO) を実現する方法を提案します。この方法では、FlashOcc の光占有予測ヘッドが 3D オブジェクト検出ネットワークと結合され、相互に促進しながら追加の時間はわずか 1.1 ミリ秒と無視できます。
挑戦的な nuScenes シリーズのベンチマークで UltimateDO をインスタンス化します。
要約(オリジナル)
Occupancy and 3D object detection are characterized as two standard tasks in modern autonomous driving system. In order to deploy them on a series of edge chips with better precision and time-consuming trade-off, contemporary approaches either deploy standalone models for individual tasks, or design a multi-task paradigm with separate heads. However, they might suffer from deployment difficulties (i.e., 3D convolution, transformer and so on) or deficiencies in task coordination. Instead, we argue that a favorable framework should be devised in pursuit of ease deployment on diverse chips and high precision with little time-consuming. Oriented at this, we revisit the paradigm for interaction between 3D object detection and occupancy prediction, reformulate the model with 2D convolution and prioritize the tasks such that each contributes to other. Thus, we propose a method to achieve fast 3D object detection and occupancy prediction (UltimateDO), wherein the light occupancy prediction head in FlashOcc is married to 3D object detection network, with negligible additional timeconsuming of only 1.1ms while facilitating each other. We instantiate UltimateDO on the challenging nuScenes-series benchmarks.
arxiv情報
著者 | Zichen Yu,Changyong Shu |
発行日 | 2024-09-17 13:14:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google