要約
生のビデオ素材のハイライトの瞬間を特定することは、インターネット プラットフォームで普及しているビデオ編集の効率を向上させるために非常に重要です。
しかし、映像に手動でラベルを付けるという大規模な作業により、未見のカテゴリのビデオに教師あり手法を適用する際に障害が生じています。
多くのビデオにはハイライト検出のための貴重な手がかりを含むオーディオ モダリティが存在しないことも、マルチモーダル戦略の使用を困難にしています。
この論文では、教師なしハイライト検出のためのクロスモーダル知覚を備えた新しいモデルを提案します。
提案されたモデルは、自己再構成タスクを介して、画像と音声のペアのデータから視覚と音声のレベルのセマンティクスを備えた表現を学習します。
教師なしハイライト検出を実現するために、ネットワークの潜在表現を調査し、重要な表現の活性化を学習するための k 点対比学習を備えた表現活性化シーケンス学習 (RASL) モジュールを提案します。
視覚モダリティを音声モダリティに接続するために、対称対照学習 (SCL) モジュールを使用して、ペアになった視覚表現と音声表現を学習します。
さらに、マスクされた特徴ベクトル シーケンス (FVS) 再構成の補助タスクは、表現強化のための事前トレーニング中に同時に実行されます。
推論中、クロスモーダル事前トレーニング済みモデルは、視覚モダリティのみが与えられた場合に、ペアの視覚と音声のセマンティクスを持つ表現を生成できます。
RASL モジュールは、ハイライト スコアを出力するために使用されます。
実験結果は、提案されたフレームワークが他の最先端のアプローチと比較して優れたパフォーマンスを達成することを示しています。
要約(オリジナル)
Identifying highlight moments of raw video materials is crucial for improving the efficiency of editing videos that are pervasive on internet platforms. However, the extensive work of manually labeling footage has created obstacles to applying supervised methods to videos of unseen categories. The absence of an audio modality that contains valuable cues for highlight detection in many videos also makes it difficult to use multimodal strategies. In this paper, we propose a novel model with cross-modal perception for unsupervised highlight detection. The proposed model learns representations with visual-audio level semantics from image-audio pair data via a self-reconstruction task. To achieve unsupervised highlight detection, we investigate the latent representations of the network and propose the representation activation sequence learning (RASL) module with k-point contrastive learning to learn significant representation activations. To connect the visual modality with the audio modality, we use the symmetric contrastive learning (SCL) module to learn the paired visual and audio representations. Furthermore, an auxiliary task of masked feature vector sequence (FVS) reconstruction is simultaneously conducted during pretraining for representation enhancement. During inference, the cross-modal pretrained model can generate representations with paired visual-audio semantics given only the visual modality. The RASL module is used to output the highlight scores. The experimental results show that the proposed framework achieves superior performance compared to other state-of-the-art approaches.
arxiv情報
著者 | Tingtian Li,Zixun Sun,Xinyu Xiao |
発行日 | 2024-03-18 12:08:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google