Technical Report for CVPR 2022 LOVEU AQTC Challenge

要約

このテクニカルレポートは、CVPR 2022 LOng形式のVidEo理解(LOVEU)チャレンジで新たに導入されたタスクであるAQTCの2番目の受賞モデルを示しています。
この課題は、ビデオ内のマルチステップの回答、マルチモーダル、多様で変化するボタン表現の問題に直面しています。
より効果的な機能マッピングのための新しいコンテキストグラウンドモジュールアテンションメカニズムを提案することにより、この問題に対処します。
さらに、ボタンの数の分析と、さまざまなステップネットワークおよびビデオ機能のアブレーション研究も実行します。
その結果、LOVEUコンペティショントラック3で総合2位、具体的には4つの評価指標のうち2つで1位を獲得しました。
私たちのコードはhttps://github.com/jaykim9870/CVPR-22_LOVEU_unipylerで入手できます。

要約(オリジナル)

This technical report presents the 2nd winning model for AQTC, a task newly introduced in CVPR 2022 LOng-form VidEo Understanding (LOVEU) challenges. This challenge faces difficulties with multi-step answers, multi-modal, and diverse and changing button representations in video. We address this problem by proposing a new context ground module attention mechanism for more effective feature mapping. In addition, we also perform the analysis over the number of buttons and ablation study of different step networks and video features. As a result, we achieved the overall 2nd place in LOVEU competition track 3, specifically the 1st place in two out of four evaluation metrics. Our code is available at https://github.com/jaykim9870/ CVPR-22_LOVEU_unipyler.

arxiv情報

著者 Hyeonyu Kim,Jongeun Kim,Jeonghun Kang,Sanguk Park,Dongchan Park,Taehwan Kim
発行日 2022-06-29 12:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク