ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022


本報告では、CVPR 2022のEgo4D Natural Language Queries (NLQ) ChallengeにReLER@ZJU-Alibabaが応募した結果を報告する。本課題の目的は、ビデオクリップとテキストクエリが与えられたとき、クエリに対する答えが得られるビデオクリップの時間的瞬間を見つけることである。この課題に取り組むために、我々は言語クエリとビデオクリップの間の相関を完全に明らかにするために、マルチスケールクロスモーダル変換器とビデオフレームレベルのコントラストロスを提案する。さらに、学習サンプルの多様性を高めるために、2つのデータ拡張戦略を提案する。実験結果は、我々の手法の有効性を示している。最終的に提出された課題は、リーダーボードで1位となった。


In this report, we present the ReLER@ZJU-Alibaba submission to the Ego4D Natural Language Queries (NLQ) Challenge in CVPR 2022. Given a video clip and a text query, the goal of this challenge is to locate a temporal moment of the video clip where the answer to the query can be obtained. To tackle this task, we propose a multi-scale cross-modal transformer and a video frame-level contrastive loss to fully uncover the correlation between language queries and video clips. Besides, we propose two data augmentation strategies to increase the diversity of training samples. The experimental results demonstrate the effectiveness of our method. The final submission ranked first on the leaderboard.


著者 Naiyuan Liu,Xiaohan Wang,Xiaobo Li,Yi Yang,Yueting Zhuang
発行日 2022-07-01 12:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV, cs.IR パーマリンク