Sports Re-ID: Improving Re-Identification Of Players In Broadcast Videos Of Team Sports


本研究は、チームスポーツの放送映像における選手の再識別に焦点を当てる。具体的には、試合の任意の瞬間に異なるカメラ視点で撮影された画像から、同じ選手を識別することに焦点を当てる。このタスクは、従来の人物再認識のアプリケーションとはいくつかの重要な点で異なる。第一に、同じチームの選手は非常によく似た服を着ているため、見分けがつきにくい。第二に、各人物のサンプル数が少ないため、再識別システムの学習が困難である。第三に、画像の解像度が非常に低く、ばらつきが大きいことが挙げられます。このことは、オクルージョンの多さやプレイヤーの速い動きと相まって、再識別の難易度を大きく高めている。本論文では、単純だが効果的な階層的データサンプリング手順とセントロイド損失関数を提案し、これらを併用することで、使用するネットワークやハイパーパラメータを変更せずに、平均平均精度(mAP)を7〜11.5、ランク1(R1)を8.8〜14.9向上させることができる。我々のデータサンプリング手法は、学習分布とテスト分布の類似性を向上させ、エンベッディング(または特徴ベクトル)の中心をより良く推定するのに役立つ。驚くべきことに、我々のアプリケーションのようにデータが非常に限られている場合、ユークリッド距離に基づく単純なセントロイド損失関数は、一般的なトリプレットセントロイド損失関数を大幅に上回ることが示された。また、畳み込みネットワークと視覚変換器の両方において、同等の改善を示している。我々のアプローチは、SoccerNet Re-Identification Challenge 2022のリーダーボード(test-split)において、mAP 86.0、R1 81.5と上位にランクインしている。また、隔離されたチャレンジスプリットでは、mAP 84.9、R1 80.1を達成しました。スポーツ関連アプリケーションのためのre-idに関する研究は非常に限られており、我々の研究はこれに関する文献の中で最初の議論の一つを提示するものです。


This work focuses on player re-identification in broadcast videos of team sports. Specifically, we focus on identifying the same player in images captured from different camera viewpoints during any given moment of a match. This task differs from traditional applications of person re-id in a few important ways. Firstly, players from the same team wear highly similar clothes, thereby making it harder to tell them apart. Secondly, there are only a few number of samples for each identity, which makes it harder to train a re-id system. Thirdly, the resolutions of the images are often quite low and vary a lot. This combined with heavy occlusions and fast movements of players greatly increase the challenges for re-id. In this paper, we propose a simple but effective hierarchical data sampling procedure and a centroid loss function that, when used together, increase the mean average precision (mAP) by 7 – 11.5 and the rank-1 (R1) by 8.8 – 14.9 without any change in the network or hyper-parameters used. Our data sampling procedure improves the similarity of the training and test distributions, and thereby aids in creating better estimates of the centroids of the embeddings (or feature vectors). Surprisingly, our study shows that in the presence of severely limited data, as is the case for our application, a simple centroid loss function based on euclidean distances significantly outperforms the popular triplet-centroid loss function. We show comparable improvements for both convolutional networks and vision transformers. Our approach is among the top ranked methods in the SoccerNet Re-Identification Challenge 2022 leaderboard (test-split) with a mAP of 86.0 and a R1 of 81.5. On the sequestered challenge split, we achieve an mAP of 84.9 and a R1 of 80.1. Research on re-id for sports-related applications is very limited and our work presents one of the first discussions in the literature on this.


著者 Bharath Comandur
発行日 2022-06-06 06:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク