YOLO11-JDE: Fast and Accurate Multi-Object Tracking with Self-Supervised Re-ID

要約

リアルタイムオブジェクトの検出と自己監視の再識別(REID)を組み合わせた高速で正確なマルチオブジェクト追跡(MOT)ソリューションであるYolo11-JDEを紹介します。
専用のReidブランチをYolo11Sに組み込むことにより、モデルはジョイント検出と埋め込み(JDE)を実行し、各検出の外観機能を生成します。
Reidブランチは完全に自己監視された設定でトレーニングされ、同時に検出のためのトレーニングを行い、費用のかかるID標識データセットの必要性を排除します。
ハードポジティブで半硬いネガティブマイニング戦略を備えたトリプレットの損失は、差別的な埋め込みを学習するために使用されます。
データアソシエーションは、モーション、外観、ロケーションキューを正常に統合するカスタムトラッキング実装によって強化されています。
Yolo11-JDEは、MOT17およびMOT20ベンチマークで競合結果を達成し、FPSの観点から既存のJDEメソッドを上回り、パラメーターの最大10倍を使用します。
したがって、私たちの方法は、実際のアプリケーションにとって非常に魅力的なソリューションになります。

要約(オリジナル)

We introduce YOLO11-JDE, a fast and accurate multi-object tracking (MOT) solution that combines real-time object detection with self-supervised Re-Identification (Re-ID). By incorporating a dedicated Re-ID branch into YOLO11s, our model performs Joint Detection and Embedding (JDE), generating appearance features for each detection. The Re-ID branch is trained in a fully self-supervised setting while simultaneously training for detection, eliminating the need for costly identity-labeled datasets. The triplet loss, with hard positive and semi-hard negative mining strategies, is used for learning discriminative embeddings. Data association is enhanced with a custom tracking implementation that successfully integrates motion, appearance, and location cues. YOLO11-JDE achieves competitive results on MOT17 and MOT20 benchmarks, surpassing existing JDE methods in terms of FPS and using up to ten times fewer parameters. Thus, making our method a highly attractive solution for real-world applications.

arxiv情報

著者 Iñaki Erregue,Kamal Nasrollahi,Sergio Escalera
発行日 2025-01-23 14:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク