要約
屋内レーダー認識は、新たな自動車用画像レーダー開発による手頃なコストと、危険な状況(火や煙など)下でのプライバシーへの懸念と信頼性の軽減という利点により、関心が高まっています。
ただし、既存のレーダー認識パイプラインは、マルチビュー レーダー設定の独特の特性を考慮できません。
この論文では、一般的な DETR アーキテクチャの拡張であり、多視点レーダー認識に合わせて調整された Radar detection TRansformer (RETR) を提案します。
RETR は DETR の利点を継承しており、画像平面でのオブジェクト検出とセグメンテーションのために手作りのコンポーネントが不要になります。
さらに重要なことは、RETR には、次のような慎重に設計された変更が組み込まれているということです。1) 調整可能な位置エンコーディング (TPE) による深さ優先の特徴の類似性。
2) レーダーとカメラの両方の座標からのトライプレーンの損失。
3) 独自のマルチビュー レーダー設定を考慮した、再パラメータ化による学習可能なレーダーからカメラへの変換。
2 つの屋内レーダー認識データセットで評価したところ、私たちのアプローチは、既存の最先端の手法よりも、物体検出では 15.38+ AP、インスタンス セグメンテーションでは 11.77+ IoU のマージンで優れています。
要約(オリジナル)
Indoor radar perception has seen rising interest due to affordable costs driven by emerging automotive imaging radar developments and the benefits of reduced privacy concerns and reliability under hazardous conditions (e.g., fire and smoke). However, existing radar perception pipelines fail to account for distinctive characteristics of the multi-view radar setting. In this paper, we propose Radar dEtection TRansformer (RETR), an extension of the popular DETR architecture, tailored for multi-view radar perception. RETR inherits the advantages of DETR, eliminating the need for hand-crafted components for object detection and segmentation in the image plane. More importantly, RETR incorporates carefully designed modifications such as 1) depth-prioritized feature similarity via a tunable positional encoding (TPE); 2) a tri-plane loss from both radar and camera coordinates; and 3) a learnable radar-to-camera transformation via reparameterization, to account for the unique multi-view radar setting. Evaluated on two indoor radar perception datasets, our approach outperforms existing state-of-the-art methods by a margin of 15.38+ AP for object detection and 11.77+ IoU for instance segmentation, respectively.
arxiv情報
著者 | Ryoma Yataka,Adriano Cardace,Pu Perry Wang,Petros Boufounos,Ryuhei Takahashi |
発行日 | 2024-11-15 15:51:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google