Identity-Consistent Aggregation for Video Object Detection

要約

ビデオ オブジェクト検出 (VID) では、ビデオからの豊富な時間コンテキストを活用して、各フレーム内のオブジェクトの表現を強化するのが一般的です。
既存の方法は、さまざまなオブジェクトから取得した時間的コンテキストを無差別に扱い、それらの異なるアイデンティティを無視します。
直観的には、同じオブジェクトのローカルビューを異なるフレームに集約すると、オブジェクトの理解を容易にすることができます。
したがって、この論文では、モデルが各オブジェクトの同一性の一貫した時間的コンテキストに焦点を当てて、より包括的なオブジェクト表現を取得し、オクルージョンやモーション ブラーなどの急速なオブジェクトの外観の変化を処理できるようにすることを目的としています。
既存の VID モデルに基づくゴールは、冗長な領域提案と非並列フレーム単位の予測方法により、低効率の問題に直面しています。
これを支援するために、私たちは ClipVID を提案します。これは、特にきめの細かいアイデンティティ一貫性のある時間コンテキストをマイニングするために設計された Identity-Consistent Aggregation (ICA) レイヤーを備えた VID モデルです。
これにより、設定された予測戦略を通じて冗長性が効果的に削減され、ICA レイヤーが非常に効率的になり、ビデオ クリップ全体に対してクリップ単位の並列予測を行うアーキテクチャを設計できるようになります。
広範な実験結果は、私たちの方法の優位性を示しています。つまり、以前の SOTA よりも約 7 倍速い速度 (39.3 fps) で実行しながら、ImageNet VID データセット上で最先端 (SOTA) パフォーマンス (84.7% mAP) を実現しました。

要約(オリジナル)

In Video Object Detection (VID), a common practice is to leverage the rich temporal contexts from the video to enhance the object representations in each frame. Existing methods treat the temporal contexts obtained from different objects indiscriminately and ignore their different identities. While intuitively, aggregating local views of the same object in different frames may facilitate a better understanding of the object. Thus, in this paper, we aim to enable the model to focus on the identity-consistent temporal contexts of each object to obtain more comprehensive object representations and handle the rapid object appearance variations such as occlusion, motion blur, etc. However, realizing this goal on top of existing VID models faces low-efficiency problems due to their redundant region proposals and nonparallel frame-wise prediction manner. To aid this, we propose ClipVID, a VID model equipped with Identity-Consistent Aggregation (ICA) layers specifically designed for mining fine-grained and identity-consistent temporal contexts. It effectively reduces the redundancies through the set prediction strategy, making the ICA layers very efficient and further allowing us to design an architecture that makes parallel clip-wise predictions for the whole video clip. Extensive experimental results demonstrate the superiority of our method: a state-of-the-art (SOTA) performance (84.7% mAP) on the ImageNet VID dataset while running at a speed about 7x faster (39.3 fps) than previous SOTAs.

arxiv情報

著者 Chaorui Deng,Da Chen,Qi Wu
発行日 2023-08-15 12:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク