要約
最近、Transformer はコンピューター ビジョンで大きな成功を収めました。
ただし、空間的および時間的な複雑さは、3D オブジェクト検出アプリケーションの大きなポイントの数に応じて二次的に増加するため、制約があります。
以前の点ごとの方法は、時間の消費と、点間の情報を取得するための受容野の制限に悩まされていました。
この論文では、LiDAR 点群からの 3D オブジェクト検出のための 2 段階の双曲線余弦変換器 (ChTR3D) を提案します。
提案された ChTR3D は、ポイント間の豊富なコンテキスト関係をエンコードするために、線形計算の複雑さに cosh-attention を適用することにより、提案を改良します。
cosh-attention モジュールは、アテンション操作の空間と時間の複雑さを軽減します。
従来のソフトマックス操作は、非負の ReLU アクティベーションと、再重み付けメカニズムを備えた双曲線余弦ベースの演算子に置き換えられます。
広く使用されている KITTI データセットでの広範な実験は、バニラの注意と比較して、cosh-attention が競争力のあるパフォーマンスで推論速度を大幅に向上させることを示しています。
実験結果は、ポイントレベルの機能を使用する2段階の最先端の方法の中で、提案されたChTR3Dが最も高速であることを示しています。
要約(オリジナル)
Recently, Transformer has achieved great success in computer vision. However, it is constrained because the spatial and temporal complexity grows quadratically with the number of large points in 3D object detection applications. Previous point-wise methods are suffering from time consumption and limited receptive fields to capture information among points. In this paper, we propose a two-stage hyperbolic cosine transformer (ChTR3D) for 3D object detection from LiDAR point clouds. The proposed ChTR3D refines proposals by applying cosh-attention in linear computation complexity to encode rich contextual relationships among points. The cosh-attention module reduces the space and time complexity of the attention operation. The traditional softmax operation is replaced by non-negative ReLU activation and hyperbolic-cosine-based operator with re-weighting mechanism. Extensive experiments on the widely used KITTI dataset demonstrate that, compared with vanilla attention, the cosh-attention significantly improves the inference speed with competitive performance. Experiment results show that, among two-stage state-of-the-art methods using point-level features, the proposed ChTR3D is the fastest one.
arxiv情報
| 著者 | Jigang Tong,Fanhang Yang,Sen Yang,Enzeng Dong,Shengzhi Du,Xing Wang,Xianlin Yi |
| 発行日 | 2022-11-10 13:54:49+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google