RCDPT: Radar-Camera fusion Dense Prediction Transformer

要約

最近、トランスフォーマー ネットワークは、自然言語処理において従来のディープ ニューラル ネットワークよりも優れており、畳み込みバックボーンと比較して、多くのコンピューター ビジョン タスクで大きな可能性を示しています。
元のトランスフォーマーでは、読み取りトークンは、他のトークンから情報を集約するための指定されたベクトルとして使用されます。
ただし、ビジョン トランスフォーマーで読み出しトークンを使用する場合のパフォーマンスは限られています。
したがって、カメラ表現をレーダー表現で再構築することにより、レーダーデータを高密度予測変換ネットワークに統合するための新しい融合戦略を提案します。
読み取りトークンを使用する代わりに、レーダー表現は追加の深度情報を単眼深度推定モデルに提供し、パフォーマンスを向上させます。
さらに、追加のモダリティを高密度の予測変換ネットワークに統合するために一般的に使用されるさまざまな融合アプローチを調査します。
実験は、カメラ画像、LIDAR、レーダー データを含む nuScenes データセットで実施されます。
結果は、提案された方法が、一般的に使用される融合戦略よりも優れたパフォーマンスをもたらし、カメラ画像とレーダーを融合する既存の畳み込み深度推定モデルよりも優れていることを示しています。

要約(オリジナル)

Recently, transformer networks have outperformed traditional deep neural networks in natural language processing and show a large potential in many computer vision tasks compared to convolutional backbones. In the original transformer, readout tokens are used as designated vectors for aggregating information from other tokens. However, the performance of using readout tokens in a vision transformer is limited. Therefore, we propose a novel fusion strategy to integrate radar data into a dense prediction transformer network by reassembling camera representations with radar representations. Instead of using readout tokens, radar representations contribute additional depth information to a monocular depth estimation model and improve performance. We further investigate different fusion approaches that are commonly used for integrating additional modality in a dense prediction transformer network. The experiments are conducted on the nuScenes dataset, which includes camera images, lidar, and radar data. The results show that our proposed method yields better performance than the commonly used fusion strategies and outperforms existing convolutional depth estimation models that fuse camera images and radar.

arxiv情報

著者 Chen-Chou Lo,Patrick Vandewalle
発行日 2023-03-02 15:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク