要約
本報告では、自然言語問い合わせ(NLQ)、モーメント問い合わせ(MQ)、物体状態変化分類(OSCC)、PNRローカライゼーション(PNR)という4つのEgo4Dチャレンジタスクに対するビデオ言語事前学習(VLP)に基づく解決策 \cite{kevin2022egovlp} を提案しています。特に、最近リリースされたEgo4Dデータセット \cite{grauman2021ego4d} を利用し、事前学習データセット、事前学習目的、開発セットからEgocentric VLPを開拓しています。これらの設計に基づき、我々は、ビデオ言語モデルを開発し、ビデオ言語モデルを用いて、ビデオテキスト表現またはビデオのみの表現を、複数のビデオダウンストリームタスクに転送することができます。このモデルは、NLQで10.46R@1&IoU @0.3、MQで10.33mAP、OSCCで74% Acc、PNRで0.67 sec errorを達成しています。コードは https://github.com/showlab/EgoVLP で公開されています。
要約(オリジナル)
In this report, we propose a video-language pretraining (VLP) based solution \cite{kevin2022egovlp} for four Ego4D challenge tasks, including Natural Language Query (NLQ), Moment Query (MQ), Object State Change Classification (OSCC), and PNR Localization (PNR). Especially, we exploit the recently released Ego4D dataset \cite{grauman2021ego4d} to pioneer Egocentric VLP from pretraining dataset, pretraining objective, and development set. Based on the above three designs, we develop a pretrained video-language model that is able to transfer its egocentric video-text representation or video-only representation to several video downstream tasks. Our Egocentric VLP achieves 10.46R@1&IoU @0.3 on NLQ, 10.33 mAP on MQ, 74% Acc on OSCC, 0.67 sec error on PNR. The code is available at https://github.com/showlab/EgoVLP.
arxiv情報
著者 | Kevin Qinghong Lin,Alex Jinpeng Wang,Mattia Soldan,Michael Wray,Rui Yan,Eric Zhongcong Xu,Difei Gao,Rongcheng Tu,Wenzhe Zhao,Weijie Kong,Chengfei Cai,Hongfa Wang,Dima Damen,Bernard Ghanem,Wei Liu,Mike Zheng Shou |
発行日 | 2022-08-03 12:03:39+00:00 |
arxivサイト | arxiv_id(pdf) |