A Cross-Scale Hierarchical Transformer with Correspondence-Augmented Attention for inferring Bird’s-Eye-View Semantic Segmentation

要約

タイトル:対応拡張付きアテンションを備えたクロススケール階層トランスフォーマーによる鳥瞰図セマンティックセグメンテーションの推論

要約:
– 鳥瞰図セマンティックセグメンテーションは、視覚化が簡単で扱いが容易なため、自動運転において周囲の情報を下流のタスクに提供するために用いられている。
– マルチカメラビューの画像を条件としたBEVセマンティックセグメンテーションの推論は、安価なデバイスとリアルタイム処理を実現できることから、コミュニティで広く採用されている。
– しかしながら、現在の手法では、ビジョントランスフォーマー(ViT)を用いてコンテンツと位置関係を学習することで、BEVセグメンテーションを実現している。ViTは二次計算量が必要であり、細かいオブジェクトの表現に制限が生じるという課題がある。
– この問題を解決するために、本研究では、対応拡張付きアテンションを備えたクロススケール階層トランスフォーマーを提案している。具体的には、BEV特徴表現を改善するために階層的なフレームワークを設計し、最終的なセグメンテーションよりも小さいサイズのレイヤーで精度を磨くことを目的としている。
– また、クロススケールトランスフォーマーを利用して、逆対応合わせの方法で特徴量の関係性を学習し、BEV特徴の残差接続を活用して、スケール間の情報伝達を促進することで、計算コストの増加を抑えている。
– 更に、対応拡張付きアテンションを提唱し、有益な対応とそうでない対応を区別して注目度スコアを強調・抑制する方法を用いており、BEV特徴の表現に必要な情報吸収意図に合致する手法となっている。
– 実験の結果、提案手法はマルチカメラビュー画像を条件としたBEVセマンティックセグメンテーションの推論において最先端の性能を発揮している。

要約(オリジナル)

As bird’s-eye-view (BEV) semantic segmentation is simple-to-visualize and easy-to-handle, it has been applied in autonomous driving to provide the surrounding information to downstream tasks. Inferring BEV semantic segmentation conditioned on multi-camera-view images is a popular scheme in the community as cheap devices and real-time processing. The recent work implemented this task by learning the content and position relationship via the vision Transformer (ViT). However, the quadratic complexity of ViT confines the relationship learning only in the latent layer, leaving the scale gap to impede the representation of fine-grained objects. And their plain fusion method of multi-view features does not conform to the information absorption intention in representing BEV features. To tackle these issues, we propose a novel cross-scale hierarchical Transformer with correspondence-augmented attention for semantic segmentation inferring. Specifically, we devise a hierarchical framework to refine the BEV feature representation, where the last size is only half of the final segmentation. To save the computation increase caused by this hierarchical framework, we exploit the cross-scale Transformer to learn feature relationships in a reversed-aligning way, and leverage the residual connection of BEV features to facilitate information transmission between scales. We propose correspondence-augmented attention to distinguish conducive and inconducive correspondences. It is implemented in a simple yet effective way, amplifying attention scores before the Softmax operation, so that the position-view-related and the position-view-disrelated attention scores are highlighted and suppressed. Extensive experiments demonstrate that our method has state-of-the-art performance in inferring BEV semantic segmentation conditioned on multi-camera-view images.

arxiv情報

著者 Naiyu Fang,Lemiao Qiu,Shuyou Zhang,Zili Wang,Kerui Hu,Kang Wang
発行日 2023-04-07 13:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク