要約
マルチオブジェクト トラッキング (MOT) は、監視や自動運転などのインテリジェントなビデオ分析アプリケーションの重要なコンポーネントです。
ビジュアル オブジェクト トラッキング用のディープ ラーニング モデルを実行するために必要な時間とストレージの複雑さは、計算能力が限られている組み込みデバイスでの採用を妨げています。
このホワイトペーパーでは、トレーニングと推論の両方の時間で、複雑なネットワーク (教師) の高レベル機能から軽量ネットワーク (学生) に知識を転送することにより、MOT を加速することを目指しています。
提案された AttTrack フレームワークには 3 つの重要なコンポーネントがあります。1) 教師モデルと生徒モデルからの中間表現を調整するクロスモデル機能学習、2) 推論時の 2 つのモデルの実行のインターリーブ、3) 教師からの更新された予測の組み込み。
学生モデルを支援するための事前知識としてのモデル。
歩行者追跡タスクの実験は、2 つの異なるオブジェクト検出バックボーン YOLOv5 と DLA34 を使用して MOT17 と MOT15 データセットで実施され、AttTrack が生徒モデルの追跡パフォーマンスを大幅に向上させ、追跡速度のわずかな低下のみを犠牲にできることを示しています。
要約(オリジナル)
Multi-object tracking (MOT) is a vital component of intelligent video analytics applications such as surveillance and autonomous driving. The time and storage complexity required to execute deep learning models for visual object tracking hinder their adoption on embedded devices with limited computing power. In this paper, we aim to accelerate MOT by transferring the knowledge from high-level features of a complex network (teacher) to a lightweight network (student) at both training and inference times. The proposed AttTrack framework has three key components: 1) cross-model feature learning to align intermediate representations from the teacher and student models, 2) interleaving the execution of the two models at inference time, and 3) incorporating the updated predictions from the teacher model as prior knowledge to assist the student model. Experiments on pedestrian tracking tasks are conducted on the MOT17 and MOT15 datasets using two different object detection backbones YOLOv5 and DLA34 show that AttTrack can significantly improve student model tracking performance while sacrificing only minor degradation of tracking speed.
arxiv情報
著者 | Keivan Nalaie,Rong Zheng |
発行日 | 2022-10-27 14:05:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google