Exploiting Feature Diversity for Make-up Temporal Video Grounding

要約

このテクニカル レポートは、ACM MM 2022 の第 4 回 Person in Context (PIC) チャレンジで導入された新しいタスクである MTVG の 3 番目の受賞ソリューションを紹介します。
説明。
このタスクの最大の課題は、メイクアップ手順のきめ細かなビデオ テキスト セマンティクスです。
ただし、現在の方法は主に、アクションベースの事前トレーニング済みモデルを使用してビデオ機能を抽出します。
アクションはメイクアップ ステップよりも大まかな粒度であるため、アクション ベースの機能は、きめ細かなキューを提供するには不十分です。
この問題に対処するために、機能の多様性を活用することで、きめの細かい表現を実現することを提案します。
具体的には、特徴抽出からネットワーク最適化、モデルアンサンブルまで一連の手法を提案しました。
その結果、MTVGコンペティションで3位を獲得しました。

要約(オリジナル)

This technical report presents the 3rd winning solution for MTVG, a new task introduced in the 4-th Person in Context (PIC) Challenge at ACM MM 2022. MTVG aims at localizing the temporal boundary of the step in an untrimmed video based on a textual description. The biggest challenge of this task is the fi ne-grained video-text semantics of make-up steps. However, current methods mainly extract video features using action-based pre-trained models. As actions are more coarse-grained than make-up steps, action-based features are not sufficient to provide fi ne-grained cues. To address this issue,we propose to achieve fi ne-grained representation via exploiting feature diversities. Specifically, we proposed a series of methods from feature extraction, network optimization, to model ensemble. As a result, we achieved 3rd place in the MTVG competition.

arxiv情報

著者 Xiujun Shu,Wei Wen,Taian Guo,Sunan He,Chen Wu,Ruizhi Qiao
発行日 2022-08-12 09:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク