MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing

要約

クロスモーダル音楽処理では、視覚、聴覚、および意味論的なコンテンツ間の変換により、新たな可能性と課題が開かれます。
このような変革的なスキームの構築は、包括的なデータ インフラストラクチャを備えたベンチマーク コーパスに依存します。
特に、大規模なクロスモーダル データセットの構築には大きな課題があります。
このペーパーでは、高品質の 3D モーション キャプチャ データ、位置合わせされたオーディオ録音、およびピッチ、ビート、フレーズ、ダイナミック、アーティキュレーションの音符ごとのセマンティック アノテーションが含まれる MOSA (Music mOtion with Semantic Annotation) データセットを紹介します。
、23 人のプロのミュージシャンによる 742 のプロの音楽パフォーマンスのハーモニー、30 時間以上、570,000 ノート以上のデータで構成されています。
私たちの知る限り、これはこれまでの音レベルの注釈を備えた最大のクロスモーダル音楽データセットです。
MOSA データセットの使用法を実証するために、オーディオ、ビデオ、およびモーション データからのビート、ダウンビート、フレーズ、および表現力豊かなコンテンツの検出を含む、いくつかの革新的なクロスモーダル音楽情報検索 (MIR) および音楽コンテンツ生成タスクを紹介します。
与えられた音楽オーディオからミュージシャンの体の動きを生成します。
データセットとコードは、この出版物とともに入手できます (https://github.com/yufenhuang/MOSA-Music-mOtion-and-Semantic-Annotation-dataset)。

要約(オリジナル)

In cross-modal music processing, translation between visual, auditory, and semantic content opens up new possibilities as well as challenges. The construction of such a transformative scheme depends upon a benchmark corpus with a comprehensive data infrastructure. In particular, the assembly of a large-scale cross-modal dataset presents major challenges. In this paper, we present the MOSA (Music mOtion with Semantic Annotation) dataset, which contains high quality 3-D motion capture data, aligned audio recordings, and note-by-note semantic annotations of pitch, beat, phrase, dynamic, articulation, and harmony for 742 professional music performances by 23 professional musicians, comprising more than 30 hours and 570 K notes of data. To our knowledge, this is the largest cross-modal music dataset with note-level annotations to date. To demonstrate the usage of the MOSA dataset, we present several innovative cross-modal music information retrieval (MIR) and musical content generation tasks, including the detection of beats, downbeats, phrase, and expressive contents from audio, video and motion data, and the generation of musicians’ body motion from given music audio. The dataset and codes are available alongside this publication (https://github.com/yufenhuang/MOSA-Music-mOtion-and-Semantic-Annotation-dataset).

arxiv情報

著者 Yu-Fen Huang,Nikki Moran,Simon Coleman,Jon Kelly,Shun-Hwa Wei,Po-Yin Chen,Yun-Hsin Huang,Tsung-Ping Chen,Yu-Chia Kuo,Yu-Chi Wei,Chih-Hsuan Li,Da-Yu Huang,Hsuan-Kai Kao,Ting-Wei Lin,Li Su
発行日 2024-06-10 15:37:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク