Multi-Correlation Siamese Transformer Network with Dense Connection for 3D Single Object Tracking

要約

点群ベースの 3D オブジェクト追跡は、自動運転における重要なタスクです。
シャムベースの 3D 追跡に関しては最近大きな進歩が見られましたが、まばらな LIDAR 点群データを使用してテンプレートと検索ブランチの間の相関関係を効果的に学習することは依然として困難です。
ネットワーク内の 1 点だけで 2 つのブランチの相関関係を実行する代わりに、この論文では、複数のステージを持ち、スパース ピラーに基づいて各ステージの最後で特徴相関関係を実行する多重相関 Siamese Transformer ネットワークを紹介します。
より具体的には、各ステージでは、まずセルフアテンションが各ブランチに個別に適用され、非ローカル コンテキスト情報が取得されます。
次に、クロスアテンションを使用してテンプレート情報を検索エリアに挿入します。
この戦略により、テンプレートの個々の特性をそのまま維持しながら、検索領域の特徴学習でテンプレートを認識できるようになります。
ネットワークがさまざまなステージで学習した情報を簡単に保存し、最適化を容易にできるようにするために、検索領域では、初期入力のスパース ピラーと各ステージの出力を後続のすべてのステージとターゲット ローカリゼーション ネットワークに密に接続します。
鳥瞰図 (BEV) 機能にマッピングし、小規模で高密度に接続された畳み込みネットワークを使用してターゲットの状態を予測します。
各ステージには徹底した監修が加えられ、パフォーマンスもさらに向上します。
提案されたアルゴリズムは、人気のある KITTI、nuScenes、および Waymo データセットで評価され、実験結果は、私たちの方法が最先端の方法と比較して有望なパフォーマンスを達成することを示しています。
各コンポーネントの有効性を示すアブレーションスタディも提供されます。
コードは https://github.com/liangp/MCSTN-3DSOT で入手できます。

要約(オリジナル)

Point cloud-based 3D object tracking is an important task in autonomous driving. Though great advances regarding Siamese-based 3D tracking have been made recently, it remains challenging to learn the correlation between the template and search branches effectively with the sparse LIDAR point cloud data. Instead of performing correlation of the two branches at just one point in the network, in this paper, we present a multi-correlation Siamese Transformer network that has multiple stages and carries out feature correlation at the end of each stage based on sparse pillars. More specifically, in each stage, self-attention is first applied to each branch separately to capture the non-local context information. Then, cross-attention is used to inject the template information into the search area. This strategy allows the feature learning of the search area to be aware of the template while keeping the individual characteristics of the template intact. To enable the network to easily preserve the information learned at different stages and ease the optimization, for the search area, we densely connect the initial input sparse pillars and the output of each stage to all subsequent stages and the target localization network, which converts pillars to bird’s eye view (BEV) feature maps and predicts the state of the target with a small densely connected convolution network. Deep supervision is added to each stage to further boost the performance as well. The proposed algorithm is evaluated on the popular KITTI, nuScenes, and Waymo datasets, and the experimental results show that our method achieves promising performance compared with the state-of-the-art. Ablation study that shows the effectiveness of each component is provided as well. Code is available at https://github.com/liangp/MCSTN-3DSOT.

arxiv情報

著者 Shihao Feng,Pengpeng Liang,Jin Gao,Erkang Cheng
発行日 2023-12-18 09:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク