Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders


生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) は、通常、ピアノロール出力を備えたフレームレベルのシステム、または音符レベルの予測を備えた言語モデル (LM) ベースのシステムを使用します。
ただし、フレームレベルのシステムでは手動のしきい値処理が必要ですが、LM ベースのシステムでは長いシーケンスに苦労します。
この論文では、事前にトレーニングされたロールベースのエンコーダと LM デコーダを組み合わせて、両方の方法の長所を活用するハイブリッド方法を提案します。
2 つのベンチマーク ロールベース エンコーダで評価したところ、私たちの方法はオンセット オフセット ベロシティ F1 スコアで従来のピアノロール出力 0.01 および 0.022 を上回り、任意のロールベース音楽転写エンコーダのパフォーマンス強化プラグインとしての可能性を実証しました。


Automatic Music Transcription (AMT), aiming to get musical notes from raw audio, typically uses frame-level systems with piano-roll outputs or language model (LM)-based systems with note-level predictions. However, frame-level systems require manual thresholding, while the LM-based systems struggle with long sequences. In this paper, we propose a hybrid method combining pre-trained roll-based encoders with an LM decoder to leverage the strengths of both methods. Besides, our approach employs a hierarchical prediction strategy, first predicting onset and pitch, then velocity, and finally offset. The hierarchical prediction strategy reduces computational costs by breaking down long sequences into different hierarchies. Evaluated on two benchmark roll-based encoders, our method outperforms traditional piano-roll outputs 0.01 and 0.022 in onset-offset-velocity F1 score, demonstrating its potential as a performance-enhancing plug-in for arbitrary roll-based music transcription encoder.


著者 Dichucheng Li,Yongyi Zang,Qiuqiang Kong
発行日 2025-01-07 15:13:41+00:00
