Scoring Intervals using Non-Hierarchical Transformer For Automatic Piano Transcription


このフレームワークでは、すべてのイベント (ノートまたはペダル) は、特定のイベント タイプに関連付けられた閉じた間隔として表されます。
ニューラルセミ CRF アプローチでは、すべての候補区間にスコアを割り当てる区間スコアリング行列が必要です。
この論文では、変圧器でアテンション スコアリングが行われる方法に似た、スケーリングされた内積演算を使用して区間をスコアリングする簡単な方法を紹介します。
次に、低時間解像度の特徴マップ上でのみ動作するエンコーダーのみの非階層トランスフォーマー バックボーンが、ピアノの音符とペダルを高い精度と時間精度で転写できることを実証します。
この実験は、私たちのアプローチが、Maestro データセットの F1 測定に関して、すべてのサブタスクにわたって新しい最先端のパフォーマンスを達成することを示しています。


The neural semi-Markov Conditional Random Field (semi-CRF) framework has demonstrated promise for event-based piano transcription. In this framework, all events (notes or pedals) are represented as closed intervals tied to specific event types. The neural semi-CRF approach requires an interval scoring matrix that assigns a score for every candidate interval. However, designing an efficient and expressive architecture for scoring intervals is not trivial. In this paper, we introduce a simple method for scoring intervals using scaled inner product operations that resemble how attention scoring is done in transformers. We show theoretically that, due to the special structure from encoding the non-overlapping intervals, under a mild condition, the inner product operations are expressive enough to represent an ideal scoring matrix that can yield the correct transcription result. We then demonstrate that an encoder-only non-hierarchical transformer backbone, operating only on a low-time-resolution feature map, is capable of transcribing piano notes and pedals with high accuracy and time precision. The experiment shows that our approach achieves the new state-of-the-art performance across all subtasks in terms of the F1 measure on the Maestro dataset.


著者 Yujia Yan,Zhiyao Duan
発行日 2024-04-22 15:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク