要約
近年、多オブジェクト追跡(MOT)やセグメンテーション(MOTS)手法は、主に検出による追跡のパラダイムに従っている。トランスフォーマーベースのエンドツーエンド(E2E)ソリューションは、MOTとMOTSにいくつかのアイデアをもたらしますが、主要なMOTとMOTSベンチマークにおいて新しい最先端(SOTA)のパフォーマンスを達成することはできません。検出と関連付けは、トラッキング・バイ・検出パラダイムの2つの主要なモジュールです。関連付け技術は、主に動きと外観情報の組み合わせに依存する。近年ディープラーニングが開発され、検出と外観モデルの性能が急速に向上している。このような傾向から、高性能な検出と外観モデルのみでSOTAを実現できないかと考えるようになった。本稿では、CBNetV2をベースに、検出モデルとしてSwin-B、自己教師付き外観モデルとしてMoCo-v2を用いて、この方向性を探ることを主眼とする。モーション情報とIoUマッピングは関連付けの際に除去された。本手法は、CVPR2023 WADワークショップにおいて、MOTSトラックで1位、MOTトラックで2位を獲得した。私たちのシンプルで効果的な手法が、MOTやMOTSの研究コミュニティに何らかの示唆を与えることを期待しています。ソースコードはこのgitリポジトリで公開されます。
要約(オリジナル)
In recent years, dominant Multi-object tracking (MOT) and segmentation (MOTS) methods mainly follow the tracking-by-detection paradigm. Transformer-based end-to-end (E2E) solutions bring some ideas to MOT and MOTS, but they cannot achieve a new state-of-the-art (SOTA) performance in major MOT and MOTS benchmarks. Detection and association are two main modules of the tracking-by-detection paradigm. Association techniques mainly depend on the combination of motion and appearance information. As deep learning has been recently developed, the performance of the detection and appearance model is rapidly improved. These trends made us consider whether we can achieve SOTA based on only high-performance detection and appearance model. Our paper mainly focuses on exploring this direction based on CBNetV2 with Swin-B as a detection model and MoCo-v2 as a self-supervised appearance model. Motion information and IoU mapping were removed during the association. Our method wins 1st place on the MOTS track and wins 2nd on the MOT track in the CVPR2023 WAD workshop. We hope our simple and effective method can give some insights to the MOT and MOTS research community. Source code will be released under this git repository
arxiv情報
著者 | Kaer Huang,Bingchuan Sun,Feng Chen,Tao Zhang,Jun Xie,Jian Li,Christopher Walter Twombly,Zhepeng Wang |
発行日 | 2023-08-03 08:53:23+00:00 |
arxivサイト | arxiv_id(pdf) |