要約
本報告では、EPIC-KITCHENS-100のマルチインスタンス検索(MIR)課題に対して、ビデオ言語プリトレーニング(VLP)に基づく解決策を提案する。特に、最近リリースされたEgo4Dデータセット \cite{grauman2021ego4d} を利用し、事前学習データセット、事前学習目的、開発セットからEgocentric VLPを開拓しています。以上の3つの設計に基づき、MIRベンチマークに対して自己中心的なビデオテキスト表現を伝達することができる事前学習済みビデオ言語モデルを開発する。さらに、適応的なマルチインスタンス最大マージン損失を考案し、モデルを効果的に微調整し、信頼性の高い推論を行うためのデュアルソフトマックス手法を装備する。我々の最良の単一モデルは、チャレンジテストセットにおいて、47.39%のmAPと61.44%のnDCGという高い性能を得ることができた。コードは https://github.com/showlab/EgoVLP で公開されています。
要約(オリジナル)
In this report, we propose a video-language pretraining (VLP) based solution \cite{kevin2022egovlp} for the EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) challenge. Especially, we exploit the recently released Ego4D dataset \cite{grauman2021ego4d} to pioneer Egocentric VLP from pretraining dataset, pretraining objective, and development set. Based on the above three designs, we develop a pretrained video-language model that is able to transfer its egocentric video-text representation to MIR benchmark. Furthermore, we devise an adaptive multi-instance max-margin loss to effectively fine-tune the model and equip the dual-softmax technique for reliable inference. Our best single model obtains strong performance on the challenge test set with 47.39% mAP and 61.44% nDCG. The code is available at https://github.com/showlab/EgoVLP.
arxiv情報
著者 | Kevin Qinghong Lin,Alex Jinpeng Wang,Rui Yan,Eric Zhongcong Xu,Rongcheng Tu,Yanru Zhu,Wenzhe Zhao,Weijie Kong,Chengfei Cai,Hongfa Wang,Wei Liu,Mike Zheng Shou |
発行日 | 2022-08-03 12:08:50+00:00 |
arxivサイト | arxiv_id(pdf) |