MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

要約

ビデオカモフラージュオブジェクト検出(VCOD)は、ビデオのバックグラウンド内でシームレスに隠されたオブジェクトを識別することを目的とする挑戦的なタスクです。
ビデオの動的特性により、モーションキューまたはさまざまな視点を介したカモフラージュオブジェクトの検出が可能になります。
以前のVCODデータセットには主に動物のオブジェクトが含まれており、研究の範囲を野生生物シナリオに制限しています。
ただし、VCODの応用は野生生物を超えて拡張されており、セキュリティ、芸術、および医療分野に大きな影響を与えています。
この問題に対処すると、新しい大規模なマルチドメインVCODデータセットMSVCODを作成します。
高品質の注釈を達成するために、注釈の精度を維持しながらコストを削減する半自動反復注釈パイプラインを設計します。
私たちのMSVCODは、これまでで最大のVCODデータセットであり、人間、動物、医療、車両のオブジェクトを含む複数のオブジェクトカテゴリを初めて導入し、さまざまな環境での背景の多様性を拡大します。
この拡張されたスコープは、カモフラージュオブジェクト検出におけるVCODタスクの実際的な適用性を高めます。
このデータセットに加えて、追加のモーション機能融合モジュールなしで機能抽出と情報融合の両方を実行するワンスチームビデオカモフラージュオブジェクト検出モデルを紹介します。
私たちのフレームワークは、既存のVCOD動物データセットと提案されたMSVCODで最先端の結果を達成します。
データセットとコードは公開されます。

要約(オリジナル)

Video Camouflaged Object Detection (VCOD) is a challenging task which aims to identify objects that seamlessly concealed within the background in videos. The dynamic properties of video enable detection of camouflaged objects through motion cues or varied perspectives. Previous VCOD datasets primarily contain animal objects, limiting the scope of research to wildlife scenarios. However, the applications of VCOD extend beyond wildlife and have significant implications in security, art, and medical fields. Addressing this problem, we construct a new large-scale multi-domain VCOD dataset MSVCOD. To achieve high-quality annotations, we design a semi-automatic iterative annotation pipeline that reduces costs while maintaining annotation accuracy. Our MSVCOD is the largest VCOD dataset to date, introducing multiple object categories including human, animal, medical, and vehicle objects for the first time, while also expanding background diversity across various environments. This expanded scope increases the practical applicability of the VCOD task in camouflaged object detection. Alongside this dataset, we introduce a one-steam video camouflage object detection model that performs both feature extraction and information fusion without additional motion feature fusion modules. Our framework achieves state-of-the-art results on the existing VCOD animal dataset and the proposed MSVCOD. The dataset and code will be made publicly available.

arxiv情報

著者 Shuyong Gao,Yu’ang Feng,Qishan Wang,Lingyi Hong,Xinyu Zhou,Liu Fei,Yan Wang,Wenqiang Zhang
発行日 2025-02-19 16:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク