Transformer-based stereo-aware 3D object detection from binocular images

要約

タイトル:双眼画像からのTransformerを使用したステレオビジョンに適した3Dオブジェクト検出

要約:

– ビジョンTransformersは、単眼2D/3D検出や周囲の表示3D検出など、さまざまな物体検出タスクで有望な進展を示している。
– しかし、重要でクラシックなステレオ3Dオブジェクト検出で使用する場合、周囲のTransformersを直接採用すると収束が遅く精度が大幅に低下することがある。
– 我々は、この欠陥の原因の1つは、周囲のTransformersがステレオ固有の画像対応情報を考慮していないことであると主張する。
– 周囲の視野システムでは、重なる領域が小さいため、対応は主要な問題ではない。
– 本論文では、視覚Transformersのモデル設計を探求し、特にタスク固有の画像対応情報を抽出およびエンコードすることに焦点を当てたステレオ3Dオブジェクト検出のためのTransformerベースのステレオ対応3D物体検出器TS3Dを提案します。
– TS3Dでは、視差に注意した位置エンコーディング(DAPE)モデルを提案して、画像対応情報をステレオ特徴に埋め込みます。
– 対応は正規化された視差としてエンコードされ、正弦波2D位置エンコーディングと組み合わせて3Dシーンの位置情報を提供します。
– 高度なマルチスケールステレオ特徴を抽出するために、ステレオリザーブフィーチャーピラミッドネットワーク(SRFPN)を提案します。
– SRFPNは、内部スケールを融合し、クロススケールステレオ特徴を集約しながら、対応情報を保持するために設計されています。
– 提案されたTS3Dは、KITTIテストセットでModerate Car detectionの平均精度41.29%を達成し、各双眼画像ペアからオブジェクトを検出するのに88ミリ秒かかります。
– 精度と推論速度の両方の観点で、先進的な相手と競合力があります。

要約(オリジナル)

Vision Transformers have shown promising progress in various object detection tasks, including monocular 2D/3D detection and surround-view 3D detection. However, when used in essential and classic stereo 3D object detection, directly adopting those surround-view Transformers leads to slow convergence and significant precision drops. We argue that one of the causes of this defect is that the surround-view Transformers do not consider the stereo-specific image correspondence information. In a surround-view system, the overlapping areas are small, and thus correspondence is not a primary issue. In this paper, we explore the model design of vision Transformers in stereo 3D object detection, focusing particularly on extracting and encoding the task-specific image correspondence information. To achieve this goal, we present TS3D, a Transformer-based Stereo-aware 3D object detector. In the TS3D, a Disparity-Aware Positional Encoding (DAPE) model is proposed to embed the image correspondence information into stereo features. The correspondence is encoded as normalized disparity and is used in conjunction with sinusoidal 2D positional encoding to provide the location information of the 3D scene. To extract enriched multi-scale stereo features, we propose a Stereo Reserving Feature Pyramid Network (SRFPN). The SRFPN is designed to reserve the correspondence information while fusing intra-scale and aggregating cross-scale stereo features. Our proposed TS3D achieves a 41.29% Moderate Car detection average precision on the KITTI test set and takes 88 ms to detect objects from each binocular image pair. It is competitive with advanced counterparts in terms of both precision and inference speed.

arxiv情報

著者 Hanqing Sun,Yanwei Pang,Jiale Cao,Jin Xie,Xuelong Li
発行日 2023-04-24 08:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク