要約
テンプレートと検索領域の間の堅牢な特徴の一致を学習することは、3D シャム追跡にとって重要です。
シャム フィーチャ マッチングの核心は、正確なオブジェクト ローカリゼーションのために、テンプレートと検索領域の間の対応するポイントに高いフィーチャ類似性を割り当てる方法です。
このホワイト ペーパーでは、(3D レジストレーションを介して) 空間的に位置合わせされた対応するポイントが一貫した特徴表現を達成する傾向があるという直感を使用して、新しいポイント クラウド レジストレーション主導のシャム追跡フレームワークを提案します。
具体的には、この方法は、追跡固有の非ローカル登録モジュールと、登録支援の Sinkhorn テンプレート機能集約モジュールを含む 2 つのモジュールで構成されています。
登録モジュールは、テンプレートと検索領域の間の正確な空間的位置合わせを対象としています。
追跡固有の空間距離制約は、識別機能学習のための非ローカル モジュールの相互注意の重みを改善するために提案されています。
次に、重み付けされた SVD を使用して、テンプレートと検索領域の間の剛体変換を計算し、それらを位置合わせして、目的の空間的に位置合わせされた対応点を実現します。
特徴集約モデルの場合、変換されたテンプレートと検索領域の間の特徴マッチングを最適な輸送問題として定式化し、Sinkhorn 最適化を利用して外れ値ロバスト マッチング ソリューションを検索します。
また、見分けがつかない領域 (滑らかな表面など) でのマッチングの堅牢性を向上させるために、登録支援の空間距離マップが構築されます。
最後に、取得した特徴マッチング マップに基づいて、テンプレートからのターゲット情報を検索領域に集約して、ターゲット固有の特徴を構築します。これは、オブジェクトのローカリゼーションのために CenterPoint のような検出ヘッドに供給されます。
KITTI、NuScenes、および Waymo データセットに対する広範な実験により、提案された方法の有効性が検証されます。
要約(オリジナル)
Learning robust feature matching between the template and search area is crucial for 3D Siamese tracking. The core of Siamese feature matching is how to assign high feature similarity on the corresponding points between the template and search area for precise object localization. In this paper, we propose a novel point cloud registration-driven Siamese tracking framework, with the intuition that spatially aligned corresponding points (via 3D registration) tend to achieve consistent feature representations. Specifically, our method consists of two modules, including a tracking-specific nonlocal registration module and a registration-aided Sinkhorn template-feature aggregation module. The registration module targets at the precise spatial alignment between the template and search area. The tracking-specific spatial distance constraint is proposed to refine the cross-attention weights in the nonlocal module for discriminative feature learning. Then, we use the weighted SVD to compute the rigid transformation between the template and search area, and align them to achieve the desired spatially aligned corresponding points. For the feature aggregation model, we formulate the feature matching between the transformed template and search area as an optimal transport problem and utilize the Sinkhorn optimization to search for the outlier-robust matching solution. Also, a registration-aided spatial distance map is built to improve the matching robustness in indistinguishable regions (e.g., smooth surface). Finally, guided by the obtained feature matching map, we aggregate the target information from the template into the search area to construct the target-specific feature, which is then fed into a CenterPoint-like detection head for object localization. Extensive experiments on KITTI, NuScenes and Waymo datasets verify the effectiveness of our proposed method.
arxiv情報
著者 | Haobo Jiang,Kaihao Lan,Le Hui,Guangyu Li,Jin Xie,Jian Yang |
発行日 | 2022-09-14 03:25:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google