Real-time 3D Single Object Tracking with Transformer

要約

LiDARに基づく3D単一物体追跡は、ロボット工学や自律走行における挑戦的な課題です。現在、既存のアプローチは通常、遠距離にあるオブジェクトはしばしば非常に疎な点群や部分的に取り込まれた点群を持っており、モデルによって抽出された特徴を曖昧にしてしまうという問題に悩まされています。曖昧な特徴は、ターゲットオブジェクトの位置を特定することを困難にし、最終的に悪いトラッキング結果につながります。この問題を解決するために、我々は強力なTransformerアーキテクチャを利用し、点群ベースの3D単一物体追跡タスクのためのPoint-Track-Transformer(PTT)モジュールを提案します。具体的には、PTTモジュールは、注意の重みを計算することにより、微調整された注意の特徴を生成し、ターゲットの重要な特徴に焦点を当てるトラッカーを導き、複雑なシナリオでの追跡能力を向上させます。PTTモジュールを評価するために、ドミナント方式にPTTを組み込み、PTT-Netと名付けた新しい3D SOTトラッカーを構築しました。PTT-Netでは、投票ステージと提案生成ステージにそれぞれPTTを組み込んでいる。投票ステージのPTTモジュールは、点パッチ間の相互作用をモデル化し、文脈依存の特徴を学習することができる。一方,提案生成段階のPTTモジュールは,背景と物体との間の文脈情報を捉えることができる.我々は、KITTIとNuScenesのデータセットでPTT-Netを評価した。実験結果は、PTTモジュールの有効性とPTT-Netの優位性を示しており、自動車カテゴリにおいて、顕著なマージン(〜10%)でベースラインを上回った。一方、我々の手法は、スパースシナリオにおいても、大幅な性能向上を実現している。一般に、変換器と追跡パイプラインの組み合わせにより、我々のPTT-Netは2つのデータセットで最先端の性能を達成することができます。さらに、PTT-NetはNVIDIA 1080Ti GPUで40FPSでリアルタイムに実行することができました。我々のコードは、研究コミュニティのために https://github.com/shanjiayao/PTT でオープンソース化されています。

要約(オリジナル)

LiDAR-based 3D single object tracking is a challenging issue in robotics and autonomous driving. Currently, existing approaches usually suffer from the problem that objects at long distance often have very sparse or partially-occluded point clouds, which makes the features extracted by the model ambiguous. Ambiguous features will make it hard to locate the target object and finally lead to bad tracking results. To solve this problem, we utilize the powerful Transformer architecture and propose a Point-Track-Transformer (PTT) module for point cloud-based 3D single object tracking task. Specifically, PTT module generates fine-tuned attention features by computing attention weights, which guides the tracker focusing on the important features of the target and improves the tracking ability in complex scenarios. To evaluate our PTT module, we embed PTT into the dominant method and construct a novel 3D SOT tracker named PTT-Net. In PTT-Net, we embed PTT into the voting stage and proposal generation stage, respectively. PTT module in the voting stage could model the interactions among point patches, which learns context-dependent features. Meanwhile, PTT module in the proposal generation stage could capture the contextual information between object and background. We evaluate our PTT-Net on KITTI and NuScenes datasets. Experimental results demonstrate the effectiveness of PTT module and the superiority of PTT-Net, which surpasses the baseline by a noticeable margin, ~10% in the Car category. Meanwhile, our method also has a significant performance improvement in sparse scenarios. In general, the combination of transformer and tracking pipeline enables our PTT-Net to achieve state-of-the-art performance on both two datasets. Additionally, PTT-Net could run in real-time at 40FPS on NVIDIA 1080Ti GPU. Our code is open-sourced for the research community at https://github.com/shanjiayao/PTT.

arxiv情報

著者 Jiayao Shan,Sifan Zhou,Yubo Cui,Zheng Fang
発行日 2022-09-02 07:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク