Video-to-Music Recommendation using Temporal Alignment of Segments

要約

私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモーダル レコメンデーションを研究しています。
この問題は音楽監視タスクとして知られています。
私たちは、音楽とビデオの間のコンテンツの関連性を学習する自己監視型システムに基づいて構築されています。
関連する推奨事項を得るには、コンテンツの適切性に加えて、構造の適切性も音楽監督において重要です。
構造を認識した推奨を使用してシステムのパフォーマンスを大幅に向上させる新しいアプローチを提案します。
中心となるアイデアは、トレーニングと推論のために完全なオーディオ ビデオ クリップだけでなく、より短いセグメントを考慮することです。
セマンティック セグメントを使用し、シーケンス アライメント コストに従ってトラックをランク付けすると、結果が大幅に改善されることがわかりました。
さまざまなランキング指標とセグメンテーション方法の影響を調査します。

要約(オリジナル)

We study cross-modal recommendation of music tracks to be used as soundtracks for videos. This problem is known as the music supervision task. We build on a self-supervised system that learns a content association between music and video. In addition to the adequacy of content, adequacy of structure is crucial in music supervision to obtain relevant recommendations. We propose a novel approach to significantly improve the system’s performance using structure-aware recommendation. The core idea is to consider not only the full audio-video clips, but rather shorter segments for training and inference. We find that using semantic segments and ranking the tracks according to sequence alignment costs significantly improves the results. We investigate the impact of different ranking metrics and segmentation methods.

arxiv情報

著者 Laure Prétet,Gaël Richard,Clément Souchier,Geoffroy Peeters
発行日 2023-06-12 15:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク