要約
ビデオ内の連続したフレームには冗長性が含まれていますが、検出タスクに関連する補足情報も含まれている場合があります。
私たちの取り組みの目的は、この補完的な情報を活用して検出を向上させることです。
そこで、時空間融合フレームワーク(STF)を提案します。
まず、ニューラル ネットワークが近くのフレーム間で特徴マップを共有して、より堅牢なオブジェクト表現を取得できるようにするマルチフレームおよびシングルフレーム アテンション モジュールを導入します。
2 番目に、特徴マップを学習可能な方法で結合して改善するデュアルフレーム フュージョン モジュールを導入します。
私たちの評価は、移動する道路利用者のビデオ シーケンスを含む 3 つの異なるベンチマークで実行されます。
実行された実験は、提案された時空間融合モジュールがベースラインの物体検出器と比較して検出性能の向上につながることを実証しています。
コードは https://github.com/noreenanwar/STF-module で入手できます。
要約(オリジナル)
Consecutive frames in a video contain redundancy, but they may also contain relevant complementary information for the detection task. The objective of our work is to leverage this complementary information to improve detection. Therefore, we propose a spatio-temporal fusion framework (STF). We first introduce multi-frame and single-frame attention modules that allow a neural network to share feature maps between nearby frames to obtain more robust object representations. Second, we introduce a dual-frame fusion module that merges feature maps in a learnable manner to improve them. Our evaluation is conducted on three different benchmarks including video sequences of moving road users. The performed experiments demonstrate that the proposed spatio-temporal fusion module leads to improved detection performance compared to baseline object detectors. Code is available at https://github.com/noreenanwar/STF-module
arxiv情報
著者 | Noreen Anwar,Guillaume-Alexandre Bilodeau,Wassim Bouachir |
発行日 | 2024-02-16 15:19:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google