要約
居眠り運転は年間数千人の死者を出しており、これらの悲劇を防ぐためにディープラーニング手法をどのように適用するかが重要な問題になっています。第6回AIシティチャレンジのTrack3において、研究者は、高密度のアクションアノテーションを持つ高品質のビデオデータセットを提供しています。データ規模が小さく、アクションの境界が不明瞭なため、このデータセットでは、すべての異なるアクションを正確にローカライズし、そのカテゴリを分類するというユニークなチャレンジが行われています。本論文では、映像間の多視点同期を有効に利用し、行動定位を駆動するための頑健な多視点演習(MVP)を実施する。オーバーフィッティングを避けるため、特徴抽出器としてKinetics-700の事前学習によりSlowFastを微調整する。次に、異なるビューの特徴をActionFormerに渡し、アクションの候補を生成する。すべてのアクションを正確にローカライズするために、モデル投票、閾値フィルタリング、重複除去などの精巧な後処理を設計している。その結果、我々のMVPは、Track3テストセットにおいて28.49%のF1スコアを達成し、ドライビングアクションのローカライズに頑健であることが示された。
要約(オリジナル)
Distracted driving causes thousands of deaths per year, and how to apply deep-learning methods to prevent these tragedies has become a crucial problem. In Track3 of the 6th AI City Challenge, researchers provide a high-quality video dataset with densely action annotations. Due to the small data scale and unclear action boundary, the dataset presents a unique challenge to precisely localize all the different actions and classify their categories. In this paper, we make good use of the multi-view synchronization among videos, and conduct robust Multi-View Practice (MVP) for driving action localization. To avoid overfitting, we fine-tune SlowFast with Kinetics-700 pre-training as the feature extractor. Then the features of different views are passed to ActionFormer to generate candidate action proposals. For precisely localizing all the actions, we design elaborate post-processing, including model voting, threshold filtering and duplication removal. The results show that our MVP is robust for driving action localization, which achieves 28.49% F1-score in the Track3 test set.
arxiv情報
著者 | Jingjie Shang,Kunchang Li,Kaibin Tian,Haisheng Su,Yangguang Li |
発行日 | 2022-07-05 13:38:10+00:00 |
arxivサイト | arxiv_id(pdf) |