要約
マルチオブジェクト トラッキング (MOT) の分野では、MOTR などの最近の Transformer ベースのエンドツーエンド モデルが、DanceTracker などのデータセットで優れたパフォーマンスを実証しています。
ただし、これらのモデルの計算需要により、トレーニングと展開に課題が生じます。
GPT のような成功したモデルからインスピレーションを得て、効率的で計算量を節約したエンドツーエンドの MOT モデルである MO-YOLO を紹介します。
MO-YOLO は、You Only Look Once (YOLO) と RT-DETR の原則を統合し、デコーダーのみのアプローチを採用します。
RT-DETR のデコーダーと YOLOv8 のアーキテクチャ コンポーネントを活用することで、MO-YOLO は高速、トレーニング時間の短縮、および優れた MOT パフォーマンスを実現します。
ダンストラックでは、MO-YOLO は MOTR のパフォーマンスに匹敵するだけでなく、それを上回り、1 秒あたり 2 倍以上のフレーム数 (MOTR 9.5 FPS、MO-YOLO 19.6 FPS) を達成します。
さらに、MO-YOLO は、MOTR と比較してトレーニング時間が大幅に短縮され、ハードウェア要件が低いことが実証されています。
この研究は、パフォーマンスとリソース効率の向上に重点を置き、効率的なエンドツーエンド MOT のための有望なパラダイムを導入します。
要約(オリジナル)
In the field of multi-object tracking (MOT), recent Transformer based end-to-end models like MOTR have demonstrated exceptional performance on datasets such as DanceTracker. However, the computational demands of these models present challenges in training and deployment. Drawing inspiration from successful models like GPT, we present MO-YOLO, an efficient and computationally frugal end-to-end MOT model. MO-YOLO integrates principles from You Only Look Once (YOLO) and RT-DETR, adopting a decoder-only approach. By leveraging the decoder from RT-DETR and architectural components from YOLOv8, MO-YOLO achieves high speed, shorter training times, and proficient MOT performance. On the Dancetrack, MO-YOLO not only matches MOTR’s performance but also surpasses it, achieving over twice the frames per second (MOTR 9.5 FPS, MO-YOLO 19.6 FPS). Furthermore, MO-YOLO demonstrates significantly reduced training times and lower hardware requirements compared to MOTR. This research introduces a promising paradigm for efficient end-to-end MOT, emphasizing enhanced performance and resource efficiency.
arxiv情報
著者 | Liao Pan,Yang Feng,Wu Di,Liu Bo,Zhang Xingle |
発行日 | 2024-01-25 12:37:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google