Temporal Perceiving Video-Language Pre-training

要約

Video-Language Pre-training モデルは最近、さまざまなマルチモーダル ダウンストリーム タスクを大幅に改善しました。
以前の支配的な作品は、主に対照的な学習を採用して、モダリティ全体でグローバルな機能の調整を実現しています。
ただし、ビデオとテキスト間のローカルな関連付けはモデル化されていないため、特に特定のクエリ テキストの一時的なビデオ境界を必要とするタスクでは、事前トレーニング モデルの一般性が制限されます。
この作業では、トレーニング済みのモデルがテキストの説明が与えられたビデオの時間的境界を正確に認識できるように、きめの細かい時間的および意味論的アラインメントを可能にする、新しいテキスト – ビデオ ローカリゼーション プリテキスト タスクを導入します。
具体的には、テキストとビデオのローカリゼーションは、テキストの説明が与えられたビデオの開始境界と終了境界を予測するモーメント検索と、テキストのサブセットをビデオの特徴と照合するテキスト ローカリゼーションで構成されます。
一時的な境界を生成するために、いくつかのビデオのフレーム機能は、テキスト シーケンスと対話する長いビデオ シーケンスに手動でマージされます。
ローカリゼーション タスクにより、この方法は、きめの細かいフレーム表現を単語表現と結び付け、単一のモダリティ内の異なるインスタンスの表現を暗黙的に区別します。
特に、包括的な実験結果は、テキストからビデオへの検索、ビデオの質問応答、ビデオのキャプション、一時的なアクションのローカリゼーション、および一時的な瞬間の検索をカバーする、さまざまなベンチマークで最先端のパフォーマンスを大幅に改善することを示しています。
コードは近日公開予定です。

要約(オリジナル)

Video-Language Pre-training models have recently significantly improved various multi-modal downstream tasks. Previous dominant works mainly adopt contrastive learning to achieve global feature alignment across modalities. However, the local associations between videos and texts are not modeled, restricting the pre-training models’ generality, especially for tasks requiring the temporal video boundary for certain query texts. This work introduces a novel text-video localization pre-text task to enable fine-grained temporal and semantic alignment such that the trained model can accurately perceive temporal boundaries in videos given the text description. Specifically, text-video localization consists of moment retrieval, which predicts start and end boundaries in videos given the text description, and text localization which matches the subset of texts with the video features. To produce temporal boundaries, frame features in several videos are manually merged into a long video sequence that interacts with a text sequence. With the localization task, our method connects the fine-grained frame representations with the word representations and implicitly distinguishes representations of different instances in the single modality. Notably, comprehensive experimental results show that our method significantly improves the state-of-the-art performance on various benchmarks, covering text-to-video retrieval, video question answering, video captioning, temporal action localization and temporal moment retrieval. The code will be released soon.

arxiv情報

著者 Fan Ma,Xiaojie Jin,Heng Wang,Jingjia Huang,Linchao Zhu,Jiashi Feng,Yi Yang
発行日 2023-01-18 12:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク