SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes



– スポーツシーンでのマルチオブジェクトトラッキングは、選手の統計データを集めたり、自動的な戦術分析などのさらなる分析を支援する上で重要な役割を果たしています。
– しかし、既存のMOTベンチマークはこの領域にほとんど注目しておらず、開発を限定しています。
– この研究では、多様なスポーツシーンにおける新しい大規模なマルチオブジェクトトラッキングデータセットである「SportsMOT」を提供しています。
– 「SportsMOT」は、コート上のすべてのプレーヤーが追跡されることを想定しており、3つのスポーツカテゴリ(バスケットボール、バレーボール、サッカー)から240のビデオシーケンス、約15倍のMOT17を上回る150Kのフレーム、3倍のMOT17を上回る1.6Mのバウンディングボックスで構成されます。
– 「SportsMOT」は、2つの主要な特性で特徴付けられています:1)高速で可変速度の動き、および2)似たような外観で区別可能です。
– 「SportsMOT」は、MOTトラッカーが動きに基づく関連性と外観に基づく関連性の両方で促進することを期待しています。
– 著者らは、いくつかの最新のトラッカーをベンチマークし、SportsMOTにおける主要な課題はオブジェクトの関連付けであることを明らかにしています。
– 問題を緩和するために、「MixSort」という新しいマルチオブジェクトトラッキングフレームワークを提案しています。このフレームワークは、ドリフター・フォンマン、正確なMatchGlo 2CG、SL3、CNN3D、IOM、TSAFなどの主要なtracking-by-detectionトラッカーにミックスフォーマーのような構造を紹介する補助的な関連付けモデルとして機能します。
– カスタマイズされた外観に基づく関連付けを元に動きに基づく関連付けを統合することにより、「MixSort」はSportsMOTとMOT17で最先端のパフォーマンスを達成します。
– 「MixSort」を基に、著者たちは深い分析を行い、SportsMOTのいくつかの深い洞察を提供しています。
– 「SportsMOT」のデータセットとコードは、で利用可能です。


Multi-object tracking in sports scenes plays a critical role in gathering players statistics, supporting further analysis, such as automatic tactical analysis. Yet existing MOT benchmarks cast little attention on the domain, limiting its development. In this work, we present a new large-scale multi-object tracking dataset in diverse sports scenes, coined as \emph{SportsMOT}, where all players on the court are supposed to be tracked. It consists of 240 video sequences, over 150K frames (almost 15\times MOT17) and over 1.6M bounding boxes (3\times MOT17) collected from 3 sports categories, including basketball, volleyball and football. Our dataset is characterized with two key properties: 1) fast and variable-speed motion and 2) similar yet distinguishable appearance. We expect SportsMOT to encourage the MOT trackers to promote in both motion-based association and appearance-based association. We benchmark several state-of-the-art trackers and reveal the key challenge of SportsMOT lies in object association. To alleviate the issue, we further propose a new multi-object tracking framework, termed as \emph{MixSort}, introducing a MixFormer-like structure as an auxiliary association model to prevailing tracking-by-detection trackers. By integrating the customized appearance-based association with the original motion-based association, MixSort achieves state-of-the-art performance on SportsMOT and MOT17. Based on MixSort, we give an in-depth analysis and provide some profound insights into SportsMOT. The dataset and code will be available at


