HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization

要約

このペーパーでは、ビデオ音楽の理解を進めるために設計された包括的なデータセットであるHarmonysetを紹介します。
Harmonysetは、リズミカルな同期、感情的整合、テーマの一貫性、および文化的関連性に関する詳細情報で注釈が付けられた48,328の多様なビデオ音楽ペアで構成されています。
効率的な注釈のためのマルチステップのヒューマンマシンコラボレーションフレームワークを提案し、人間の洞察と機械で生成された説明を組み合わせて、重要な遷移を特定し、複数の次元にわたってアライメントを評価します。
さらに、タスクとメトリックを備えた新しい評価フレームワークを紹介して、リズム、感情、テーマ、文化的コンテキストなど、ビデオと音楽の多次元的アライメントを評価します。
私たちの広範な実験は、Harmonysetが提案された評価フレームワークとともに、マルチモーダルモデルがビデオと音楽の複雑な関係をキャプチャして分析する能力を大幅に向上させることを示しています。

要約(オリジナル)

This paper introduces HarmonySet, a comprehensive dataset designed to advance video-music understanding. HarmonySet consists of 48,328 diverse video-music pairs, annotated with detailed information on rhythmic synchronization, emotional alignment, thematic coherence, and cultural relevance. We propose a multi-step human-machine collaborative framework for efficient annotation, combining human insights with machine-generated descriptions to identify key transitions and assess alignment across multiple dimensions. Additionally, we introduce a novel evaluation framework with tasks and metrics to assess the multi-dimensional alignment of video and music, including rhythm, emotion, theme, and cultural context. Our extensive experiments demonstrate that HarmonySet, along with the proposed evaluation framework, significantly improves the ability of multimodal models to capture and analyze the intricate relationships between video and music.

arxiv情報

著者 Zitang Zhou,Ke Mei,Yu Lu,Tianyi Wang,Fengyun Rao
発行日 2025-03-04 15:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク