ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer

要約

障害物の検出と追跡は、ロボットの自律ナビゲーションにおける重要なコンポーネントです。
この論文では、障害物の検出と追跡の問題の両方に対処するための Transformer ベースのモデルである ODTFormer を提案します。
検出タスクでは、私たちのアプローチは変形可能な注意を利用して 3D コスト ボリュームを構築し、ボクセル占有グリッドの形式で段階的にデコードされます。
さらに、連続したフレーム間でボクセルを照合することで障害物を追跡します。
モデル全体をエンドツーエンドで最適化できます。
DrivingStereo と KITTI ベンチマークに関する広範な実験を通じて、私たちのモデルは障害物検出タスクにおいて最先端のパフォーマンスを実現しました。
また、最先端の障害物追跡モデルに匹敵する精度を報告していますが、必要な計算コストは​​そのほんの一部、通常は 10 分の 1 ~ 20 分の 1 です。
コードとモデルの重みは公開されます。

要約(オリジナル)

Obstacle detection and tracking represent a critical component in robot autonomous navigation. In this paper, we propose ODTFormer, a Transformer-based model to address both obstacle detection and tracking problems. For the detection task, our approach leverages deformable attention to construct a 3D cost volume, which is decoded progressively in the form of voxel occupancy grids. We further track the obstacles by matching the voxels between consecutive frames. The entire model can be optimized in an end-to-end manner. Through extensive experiments on DrivingStereo and KITTI benchmarks, our model achieves state-of-the-art performance in the obstacle detection task. We also report comparable accuracy to state-of-the-art obstacle tracking models while requiring only a fraction of their computation cost, typically ten-fold to twenty-fold less. The code and model weights will be publicly released.

arxiv情報

著者 Tianye Ding,Hongyu Li,Huaizu Jiang
発行日 2024-10-23 11:05:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク