Efficient One-stage Video Object Detection by Exploiting Temporal Consistency

要約

最近、1 段階検出器は、画像データに対して従来の 2 段階検出器と比較して、競争力のある精度と高速速度を実現しています。
ただし、ビデオ オブジェクト検出 (VOD) の分野では、ほとんどの既存の VOD 方法は依然として 2 段階の検出器に基づいています。
さらに、既存の VOD 方法を 1 段階検出器に直接適応させると、計算コストが支払われなくなります。
このペーパーでは、まず、VOD に 1 段階検出器を使用する場合の計算上のボトルネックを分析します。
分析に基づいて、計算のボトルネックに対処し、ビデオ フレームの時間的一貫性を利用して効率的な 1 段階 VOD を実現するための、シンプルかつ効率的なフレームワークを提案します。
具体的には、私たちの方法は、背景領域をフィルタリングして除外する位置優先ネットワークと、特定のフレームの低レベルの特徴マップでの不必要な計算をスキップするサイズ優先ネットワークで構成されます。
私たちはさまざまな最新の 1 ステージ検出器でメソッドをテストし、ImageNet VID データセットで広範な実験を実施しています。
優れた実験結果は、私たちの方法の優れた有効性、効率、および互換性を実証しています。
コードは https://github.com/guanxiongsun/vfe.pytorch で入手できます。

要約(オリジナル)

Recently, one-stage detectors have achieved competitive accuracy and faster speed compared with traditional two-stage detectors on image data. However, in the field of video object detection (VOD), most existing VOD methods are still based on two-stage detectors. Moreover, directly adapting existing VOD methods to one-stage detectors introduces unaffordable computational costs. In this paper, we first analyse the computational bottlenecks of using one-stage detectors for VOD. Based on the analysis, we present a simple yet efficient framework to address the computational bottlenecks and achieve efficient one-stage VOD by exploiting the temporal consistency in video frames. Specifically, our method consists of a location-prior network to filter out background regions and a size-prior network to skip unnecessary computations on low-level feature maps for specific frames. We test our method on various modern one-stage detectors and conduct extensive experiments on the ImageNet VID dataset. Excellent experimental results demonstrate the superior effectiveness, efficiency, and compatibility of our method. The code is available at https://github.com/guanxiongsun/vfe.pytorch.

arxiv情報

著者 Guanxiong Sun,Yang Hua,Guosheng Hu,Neil Robertson
発行日 2024-02-14 15:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク