要約
ほとんどの(3D)マルチオブジェクト・トラッキング手法は、データの関連付けのために外観に基づくキューに依存している。これに対し、我々は、データ駆動型のデータ関連付けのための手掛かりとして、3D空間におけるオブジェクト間の幾何学的関係のみを符号化することによって、どこまで到達できるかを調査する。我々は、3次元検出をグラフのノードとして符号化し、オブジェクト間の空間的、時間的な対の関係は、グラフのエッジに局所化された極座標を介して符号化される。この表現により、幾何学的関係は、特に非ホロノミックな運動下でのグローバルな変換や滑らかな軌跡の変化に対して不変である。これにより、グラフニューラルネットワークは、時間的・空間的な相互作用を効果的に符号化することを学習し、文脈や動きの手がかりを十分に活用して、データの関連付けをエッジ分類として提起することで最終的なシーン解釈を得ることができるようになりました。さらに、我々の手法であるPolarMOTが、異なる場所(ボストン、シンガポール、カールスルーエ)やデータセット(nuScenesとKITTI)にわたって驚くほどよく一般化できることを示す。
要約(オリジナル)
Most (3D) multi-object tracking methods rely on appearance-based cues for data association. By contrast, we investigate how far we can get by only encoding geometric relationships between objects in 3D space as cues for data-driven data association. We encode 3D detections as nodes in a graph, where spatial and temporal pairwise relations among objects are encoded via localized polar coordinates on graph edges. This representation makes our geometric relations invariant to global transformations and smooth trajectory changes, especially under non-holonomic motion. This allows our graph neural network to learn to effectively encode temporal and spatial interactions and fully leverage contextual and motion cues to obtain final scene interpretation by posing data association as edge classification. We establish a new state-of-the-art on nuScenes dataset and, more importantly, show that our method, PolarMOT, generalizes remarkably well across different locations (Boston, Singapore, Karlsruhe) and datasets (nuScenes and KITTI).
arxiv情報
著者 | Aleksandr Kim,Guillem Brasó,Aljoša Ošep,Laura Leal-Taixé |
発行日 | 2022-08-03 10:06:56+00:00 |
arxivサイト | arxiv_id(pdf) |