XS-VID: An Extremely Small Video Object Detection Dataset

要約

Small Video Object Detection (SVOD) は、現代のコンピューター ビジョンにおける重要なサブフィールドであり、早期のオブジェクトの発見と検出に不可欠です。
しかし、既存の SVOD データセットは希少であり、オブジェクトの小ささが不十分であること、オブジェクト カテゴリが限られていること、シーンの多様性が欠如していることなどの問題があり、対応するメソッドの単一アプリケーション シナリオにつながっています。
このギャップに対処するために、さまざまな時代やシーンからの航空データで構成され、8 つの主要なオブジェクト カテゴリに注釈を付けた XS-VID データセットを開発しました。
非常に小さなオブジェクトを検出するための既存の方法をさらに評価するために、XS-VID は、ピクセル領域が小さい 3 種類のオブジェクトを広範囲に収集します。非常に小さい (\textit{es}, $0\sim12^2$)、比較的小さい (\textit{rs})
, $12^2\sim20^2$)、一般に小さい (\textit{gs}, $20^2\sim32^2$)。
XS-VID は、微小なオブジェクトをカバーして定量化する際に前例のない広さと深さを提供し、データセット内のシーンとオブジェクトの多様性を大幅に強化します。
XS-VID と一般公開されている VisDrone2019VID データセットに関する広範な検証により、既存の手法は小さな物体検出に苦戦しており、一般的な物体検出器と比較してパフォーマンスが大幅に劣っていることが示されています。
以前の方法の長所を活用し、その弱点に対処して、局所的な特徴の関連付けを強化し、時間的な動きの特徴を統合して、SVODの精度と安定性を大幅に向上させるYOLOFTを提案します。
データセットとベンチマークは \url{https://gjhhust.github.io/XS-VID/} で入手できます。

要約(オリジナル)

Small Video Object Detection (SVOD) is a crucial subfield in modern computer vision, essential for early object discovery and detection. However, existing SVOD datasets are scarce and suffer from issues such as insufficiently small objects, limited object categories, and lack of scene diversity, leading to unitary application scenarios for corresponding methods. To address this gap, we develop the XS-VID dataset, which comprises aerial data from various periods and scenes, and annotates eight major object categories. To further evaluate existing methods for detecting extremely small objects, XS-VID extensively collects three types of objects with smaller pixel areas: extremely small (\textit{es}, $0\sim12^2$), relatively small (\textit{rs}, $12^2\sim20^2$), and generally small (\textit{gs}, $20^2\sim32^2$). XS-VID offers unprecedented breadth and depth in covering and quantifying minuscule objects, significantly enriching the scene and object diversity in the dataset. Extensive validations on XS-VID and the publicly available VisDrone2019VID dataset show that existing methods struggle with small object detection and significantly underperform compared to general object detectors. Leveraging the strengths of previous methods and addressing their weaknesses, we propose YOLOFT, which enhances local feature associations and integrates temporal motion features, significantly improving the accuracy and stability of SVOD. Our datasets and benchmarks are available at \url{https://gjhhust.github.io/XS-VID/}.

arxiv情報

著者 Jiahao Guo,Ziyang Xu,Lianjun Wu,Fei Gao,Wenyu Liu,Xinggang Wang
発行日 2024-07-25 15:42:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク