要約
近年、通常、ビジュアルとオーディオの両方のモダリティを含むショートビデオが急速に発展しています。
短い動画にとってBGMは視聴者の感情に大きな影響を与える重要な要素です。
しかし、現時点では、ショートビデオのBGMはビデオ制作者によって選択されるのが一般的であり、ショートビデオ用の自動音楽推薦方法が不足しています。
この文書では、クロスモーダル検索のための革新的なミュージックビデオ埋め込み空間バインディング モデルである MVBind を紹介します。
MVBind は自己監視型アプローチとして動作し、手動による注釈を必要とせずに、モーダル間の関係に関する固有の知識をデータから直接取得します。
さらに、ショートビデオに対応する音楽と映像のペアデータセットの欠如を補うために、主に細心の注意を払って選択されたショートビデオから構成されるデータセット、SVM-10K(Short Video with Music-10K)を構築しました。
このデータセットでは、MVBind は他のベースライン手法と比較してパフォーマンスが大幅に向上していることがわかります。
構築されたデータセットとコードは、将来の研究を促進するために公開されます。
要約(オリジナル)
Recent years have witnessed the rapid development of short videos, which usually contain both visual and audio modalities. Background music is important to the short videos, which can significantly influence the emotions of the viewers. However, at present, the background music of short videos is generally chosen by the video producer, and there is a lack of automatic music recommendation methods for short videos. This paper introduces MVBind, an innovative Music-Video embedding space Binding model for cross-modal retrieval. MVBind operates as a self-supervised approach, acquiring inherent knowledge of intermodal relationships directly from data, without the need of manual annotations. Additionally, to compensate the lack of a corresponding musical-visual pair dataset for short videos, we construct a dataset, SVM-10K(Short Video with Music-10K), which mainly consists of meticulously selected short videos. On this dataset, MVBind manifests significantly improved performance compared to other baseline methods. The constructed dataset and code will be released to facilitate future research.
arxiv情報
著者 | Jiajie Teng,Huiyu Duan,Yucheng Zhu,Sijing Wu,Guangtao Zhai |
発行日 | 2024-05-15 12:11:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google