Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale Network and Self-Attention Mechanism

要約

楽器演奏技術 (IPT) は、音楽表現の重要な要素です。
ただし、IPT 検出のための既存の作業のほとんどは、モノフォニック音楽信号のみに関係しており、重複する IPT または混合 IPT を含むポリフォニック楽器のソロ曲で IPT を検出することはほとんど行われていません。
この論文では、それをフレームレベルのマルチラベル分類問題として定式化し、それを中国の撥弦楽器である古箏に適用します。
Guzheng\_Tech99 という新しいデータセットを作成します。これには、Guzheng の録音と、各音符のオンセット、オフセット、ピッチ、IPT 注釈が含まれます。
異なるIPTは長さが大きく異なるため、マルチスケールネットワークと自己注意を使用してこの問題を解決する新しい方法を提案します.
マルチスケール ネットワークはさまざまなスケールから特徴を抽出し、最も粗いスケールで特徴マップに適用される自己注意メカニズムは、長距離特徴抽出をさらに強化します。
私たちのアプローチは、既存の作品よりも大幅に優れており、IPT検出におけるその有効性を示しています。

要約(オリジナル)

Instrument playing technique (IPT) is a key element of musical presentation. However, most of the existing works for IPT detection only concern monophonic music signals, yet little has been done to detect IPTs in polyphonic instrumental solo pieces with overlapping IPTs or mixed IPTs. In this paper, we formulate it as a frame-level multi-label classification problem and apply it to Guzheng, a Chinese plucked string instrument. We create a new dataset, Guzheng\_Tech99, containing Guzheng recordings and onset, offset, pitch, IPT annotations of each note. Because different IPTs vary a lot in their lengths, we propose a new method to solve this problem using multi-scale network and self-attention. The multi-scale network extracts features from different scales, and the self-attention mechanism applied to the feature maps at the coarsest scale further enhances the long-range feature extraction. Our approach outperforms existing works by a large margin, indicating its effectiveness in IPT detection.

arxiv情報

著者 Dichucheng Li,Mingjin Che,Wenwu Meng,Yulun Wu,Yi Yu,Fan Xia,Wei Li
発行日 2023-03-23 13:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク