Where a Strong Backbone Meets Strong Features — ActionFormer for Ego4D Moment Queries Challenge


このレポートは、Ego4D モーメント クエリ チャレンジ 2022 への提出物について説明します。提出物は、一時的なアクション ローカリゼーションの最先端のバックボーンである ActionFormer と、SlowFast、Omnivore、EgoVLP の 3 つの強力なビデオ機能に基づいています。
私たちのソリューションは、テストセットで 21.76% の平均 mAP を記録し、パブリック リーダーボードで 2 位にランクされました。これは、公式のベースラインのほぼ 3 倍です。
さらに、テスト セットの tIoU=0.5 で 42.54% の Recall@1x を取得し、1.41 絶対パーセント ポイントの大幅な差でトップ ランクのソリューションを上回りました。
コードは https://github.com/happyharrycn/actionformer_release で入手できます。


This report describes our submission to the Ego4D Moment Queries Challenge 2022. Our submission builds on ActionFormer, the state-of-the-art backbone for temporal action localization, and a trio of strong video features from SlowFast, Omnivore and EgoVLP. Our solution is ranked 2nd on the public leaderboard with 21.76% average mAP on the test set, which is nearly three times higher than the official baseline. Further, we obtain 42.54% Recall@1x at tIoU=0.5 on the test set, outperforming the top-ranked solution by a significant margin of 1.41 absolute percentage points. Our code is available at https://github.com/happyharrycn/actionformer_release.


著者 Fangzhou Mu,Sicheng Mo,Gillian Wang,Yin Li
発行日 2022-11-16 17:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク