Learning Musical Representations for Music Performance Question Answering

要約

音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。
まばらなオーディオを備えた一般的なシナリオとは異なり、音楽パフォーマンスには継続的に密なオーディオ信号が含まれます。
オーディオビデオQAの既存のマルチモーダル学習方法は、一般的なシナリオで印象的な機能を示していますが、音楽パフォーマンス内の基本的な問題に対処することはできません。
と音楽。
したがって、既存の方法は、音楽のパフォーマンスに関する質問に不正確に答える傾向があります。
上記の研究ギャップを埋めるために、(i)音楽データに固有の複雑なマルチモーダル相互接続性を考慮すると、私たちの主要なバックボーンは、音楽のコンテキストにマルチモーダル相互作用を組み込むように設計されています。
(ii)モデルが音楽特性を学習できるようにするために、現在の音楽データセットでリズミカルなソースと音楽ソースに注釈を付けてリリースします。
(iii)時間を手にした音声視聴覚モデリングの場合、モデルの音楽予測を時間的次元に合わせます。
私たちの実験は、音楽AVQAデータセットに対する最先端の影響を示しています。
私たちのコードは、https://github.com/xid32/amuseで入手できます。

要約(オリジナル)

Music performances are representative scenarios for audio-visual modeling. Unlike common scenarios with sparse audio, music performances continuously involve dense audio signals throughout. While existing multimodal learning methods on the audio-video QA demonstrate impressive capabilities in general scenarios, they are incapable of dealing with fundamental problems within the music performances: they underexplore the interaction between the multimodal signals in performance and fail to consider the distinctive characteristics of instruments and music. Therefore, existing methods tend to answer questions regarding musical performances inaccurately. To bridge the above research gaps, (i) given the intricate multimodal interconnectivity inherent to music data, our primary backbone is designed to incorporate multimodal interactions within the context of music; (ii) to enable the model to learn music characteristics, we annotate and release rhythmic and music sources in the current music datasets; (iii) for time-aware audio-visual modeling, we align the model’s music predictions with the temporal dimension. Our experiments show state-of-the-art effects on the Music AVQA datasets. Our code is available at https://github.com/xid32/Amuse.

arxiv情報

著者 Xingjian Diao,Chunhui Zhang,Tingxuan Wu,Ming Cheng,Zhongyu Ouyang,Weiyi Wu,Jiang Gui
発行日 2025-02-10 17:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク