要約
最近の時間的 LiDAR ベースの 3D 物体検出器は、2 段階の提案ベースのアプローチに基づいて有望なパフォーマンスを達成しています。
これらは、第 1 段階の密検出器から 3D ボックス候補を生成し、その後にさまざまな時間的集計方法が続きます。
ただし、これらのアプローチではフレームごとのオブジェクトまたは点群全体が必要となり、メモリ バンクの使用率に関連する課題が生じます。
さらに、点群と軌跡フィーチャは連結のみに基づいて結合されるため、それらの間の効果的な相互作用が無視される可能性があります。
この論文では、効率的な時間的 3D オブジェクト検出のための長期短期メモリを備えた点軌跡変換器を提案します。
この目的を達成するために、現在のフレーム オブジェクトの点群とその履歴軌跡のみを入力として利用し、メモリ バンクのストレージ要件を最小限に抑えます。
さらに、長期・短期および将来を意識した視点に焦点を当てて軌道特徴をエンコードするモジュールを導入し、それらを点群特徴で効果的に集約します。
私たちは、大規模な Waymo データセットに対して広範な実験を実施し、私たちのアプローチが最先端の手法に対して良好に機能することを実証しています。
コードとモデルは https://github.com/kuanchihhuang/PTT で公開されます。
要約(オリジナル)
Recent temporal LiDAR-based 3D object detectors achieve promising performance based on the two-stage proposal-based approach. They generate 3D box candidates from the first-stage dense detector, followed by different temporal aggregation methods. However, these approaches require per-frame objects or whole point clouds, posing challenges related to memory bank utilization. Moreover, point clouds and trajectory features are combined solely based on concatenation, which may neglect effective interactions between them. In this paper, we propose a point-trajectory transformer with long short-term memory for efficient temporal 3D object detection. To this end, we only utilize point clouds of current-frame objects and their historical trajectories as input to minimize the memory bank storage requirement. Furthermore, we introduce modules to encode trajectory features, focusing on long short-term and future-aware perspectives, and then effectively aggregate them with point cloud features. We conduct extensive experiments on the large-scale Waymo dataset to demonstrate that our approach performs well against state-of-the-art methods. Code and models will be made publicly available at https://github.com/kuanchihhuang/PTT.
arxiv情報
著者 | Kuan-Chih Huang,Weijie Lyu,Ming-Hsuan Yang,Yi-Hsuan Tsai |
発行日 | 2023-12-13 18:59:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google