要約
Transformer ベースのアプローチは、学界と産業界の両方でマルチカメラ 3D 検出の最近の開発を進めています。
通常のトランスフォーマー アーキテクチャでは、入力フレーム間の違いを考慮せずに、クエリがランダムに初期化され、データセット全体に対して最適化されます。
この作業では、3D 検出ネットワークの変換部分の前に、2D タスク用に高度に最適化されていることが多い画像バックボーンからの予測を活用することを提案します。
この方法は (1) によって機能します。
画像特徴マップを 2D 事前分布で増強する (2)。
2D ボックス重心に沿ったレイキャスティングによるクエリ位置のサンプリング、および (3)。
オブジェクトレベルの画像特徴でクエリ特徴を初期化します。
実験結果は、2D 事前確率がモデルの収束を早めるだけでなく、平均精度に関してベースライン アプローチを最大 12% 大幅に改善することを示しています。
要約(オリジナル)
Transfomer-based approaches advance the recent development of multi-camera 3D detection both in academia and industry. In a vanilla transformer architecture, queries are randomly initialised and optimised for the whole dataset, without considering the differences among input frames. In this work, we propose to leverage the predictions from an image backbone, which is often highly optimised for 2D tasks, as priors to the transformer part of a 3D detection network. The method works by (1). augmenting image feature maps with 2D priors, (2). sampling query locations via ray-casting along 2D box centroids, as well as (3). initialising query features with object-level image features. Experimental results shows that 2D priors not only help the model converge faster, but also largely improve the baseline approach by up to 12% in terms of average precision.
arxiv情報
著者 | Di Feng,Francesco Ferroni |
発行日 | 2023-01-31 12:45:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google