Object State Change Classification in Egocentric Videos using the Divided Space-Time Attention Mechanism

要約

本レポートは、Ego4Dに提出した’TarHeels’について記述しています。本報告では、Ego4D: Object State Change Classification Challengeに提出した’TarHeels’について述べる。我々は、変換器を用いた映像認識モデルを用い、分割時空間注意の仕組みを利用して、自己中心的な映像中の物体の状態変化を分類する。本課題では、2番目に優秀な成績を収めました。さらに、アブレーション研究を行い、自己中心的なビデオにおけるオブジェクトの状態変化を識別するには、時間的なモデル化能力が必要であることを示す。最後に、我々のモデルの予測を可視化するために、いくつかの正と負の例を提示する。コードは、https://github.com/md-mohaiminul/ObjectStateChange で公開されています。

要約(オリジナル)

This report describes our submission called ‘TarHeels’ for the Ego4D: Object State Change Classification Challenge. We use a transformer-based video recognition model and leverage the Divided Space-Time Attention mechanism for classifying object state change in egocentric videos. Our submission achieves the second-best performance in the challenge. Furthermore, we perform an ablation study to show that identifying object state change in egocentric videos requires temporal modeling ability. Lastly, we present several positive and negative examples to visualize our model’s predictions. The code is publicly available at: https://github.com/md-mohaiminul/ObjectStateChange

arxiv情報

著者 Md Mohaiminul Islam,Gedas Bertasius
発行日 2023-01-04 12:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク