要約
近年、トランスフォーマーネットワークは自然言語処理において従来のディープニューラルネットワークを凌駕し、畳み込みバックボーンと比較して多くのコンピュータビジョンタスクにおいて大きな可能性を示している。オリジナルのトランスフォーマーでは、読み出しトークンが他のトークンからの情報を集約するための指定ベクトルとして使用されます。しかし、ビジョン変換器において読み出しトークンを使用する場合の性能には限界がある。そこで、我々は、カメラ表現をレーダー表現で再構成することにより、レーダーデータを高密度予測変換器ネットワークに統合する新しいフュージョン戦略を提案する。読み出しトークンを使用する代わりに、レーダー表現は単眼深度推定モデルに追加の深度情報を提供し、性能を向上させる。我々はさらに、密な予測変換ネットワークに追加のモダリティを統合するために一般的に使用される、異なる融合アプローチを調査する。実験は、カメラ画像、ライダー、レーダーデータを含むnuScenesデータセットに対して行われる。その結果、我々の提案する方法は、一般的に用いられる融合戦略よりも優れた性能をもたらし、カメラ画像とレーダーを融合した既存の畳み込み深度推定モデルを凌駕することが示された。
要約(オリジナル)
Recently, transformer networks have outperformed traditional deep neural networks in natural language processing and show a large potential in many computer vision tasks compared to convolutional backbones. In the original transformer, readout tokens are used as designated vectors for aggregating information from other tokens. However, the performance of using readout tokens in a vision transformer is limited. Therefore, we propose a novel fusion strategy to integrate radar data into a dense prediction transformer network by reassembling camera representations with radar representations. Instead of using readout tokens, radar representations contribute additional depth information to a monocular depth estimation model and improve performance. We further investigate different fusion approaches that are commonly used for integrating additional modality in a dense prediction transformer network. The experiments are conducted on the nuScenes dataset, which includes camera images, lidar, and radar data. The results show that our proposed method yields better performance than the commonly used fusion strategies and outperforms existing convolutional depth estimation models that fuse camera images and radar.
arxiv情報
著者 | Chen-Chou Lo,Patrick Vandewalle |
発行日 | 2022-11-04 13:16:20+00:00 |
arxivサイト | arxiv_id(pdf) |