Video-Guided Curriculum Learning for Spoken Video Grounding

要約

このホワイト ペーパーでは、新しいタスクである音声ビデオ グラウンディング (SVG) を紹介します。これは、音声言語の説明から目的のビデオ フラグメントをローカライズすることを目的としています。
テキストを使用する場合と比較して、音声を使用する場合は、生の音声からビデオに関連する有用な音素と音節をモデルが直接利用する必要があります。
さらに、このスピーチ オーディオに環境ノイズをランダムに追加することで、このタスクの難易度をさらに高め、実際のアプリケーションのシミュレーションをより適切に行うことができます。
識別音素を修正し、ノイズの多いオーディオからビデオ関連情報を抽出するために、オーディオの事前トレーニングプロセス中に新しいビデオガイド付きカリキュラム学習 (VGCL) を開発します。これは、重要な視覚を利用して話し言葉を理解するのに役立ちます。
外部ノイズを抑えます。
推論中にモデルがグラウンド トゥルース ビデオ セグメントを取得できないことを考慮して、事前トレーニング中に入力ビデオをグラウンド トゥルースからビデオ コンテンツ全体に徐々にシフトするカリキュラム戦略を設計します。
最後に、モデルはビデオ クリップ全体から重要な視覚情報を抽出して、話し言葉を理解する方法を学習できます。
さらに、ActivityNet Speech データセットと名付けられた、ActivityNet に基づく最初の大規模な音声ビデオ グラウンディング データセットを収集します。
広範な実験は、提案されたビデオガイド付きカリキュラム学習が、相互オーディオエンコーダーを取得するための事前トレーニングプロセスを促進し、音声ビデオグラウンディングタスクのパフォーマンスを大幅に促進できることを示しています。
さらに、ノイズの多い音の場合、ASR トランスクリプトを使用してビデオをグラウンディングする方法よりもモデルが優れていることを証明し、カリキュラム戦略の有効性をさらに実証しています。

要約(オリジナル)

In this paper, we introduce a new task, spoken video grounding (SVG), which aims to localize the desired video fragments from spoken language descriptions. Compared with using text, employing audio requires the model to directly exploit the useful phonemes and syllables related to the video from raw speech. Moreover, we randomly add environmental noises to this speech audio, further increasing the difficulty of this task and better simulating real applications. To rectify the discriminative phonemes and extract video-related information from noisy audio, we develop a novel video-guided curriculum learning (VGCL) during the audio pre-training process, which can make use of the vital visual perceptions to help understand the spoken language and suppress the external noise. Considering during inference the model can not obtain ground truth video segments, we design a curriculum strategy that gradually shifts the input video from the ground truth to the entire video content during pre-training. Finally, the model can learn how to extract critical visual information from the entire video clip to help understand the spoken language. In addition, we collect the first large-scale spoken video grounding dataset based on ActivityNet, which is named as ActivityNet Speech dataset. Extensive experiments demonstrate our proposed video-guided curriculum learning can facilitate the pre-training process to obtain a mutual audio encoder, significantly promoting the performance of spoken video grounding tasks. Moreover, we prove that in the case of noisy sound, our model outperforms the method that grounding video with ASR transcripts, further demonstrating the effectiveness of our curriculum strategy.

arxiv情報

著者 Yan Xia,Zhou Zhao,Shangwei Ye,Yang Zhao,Haoyuan Li,Yi Ren
発行日 2022-09-01 07:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS パーマリンク