Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders

要約

生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) は、通常、ピアノロール出力を備えたフレームレベルのシステム、または音符レベルの予測を備えた言語モデル (LM) ベースのシステムを使用します。
ただし、フレームレベルのシステムでは手動のしきい値処理が必要ですが、LM ベースのシステムでは長いシーケンスに苦労します。
この論文では、事前にトレーニングされたロールベースのエンコーダと LM デコーダを組み合わせて、両方の方法の長所を活用するハイブリッド方法を提案します。
さらに、私たちのアプローチは階層的な予測戦略を採用しており、最初にオンセットとピッチを予測し、次に速度を予測し、最後にオフセットを予測します。
階層予測戦略は、長いシーケンスを異なる階層に分割することで計算コストを削減します。
2 つのベンチマーク ロールベース エンコーダで評価したところ、私たちの方法はオンセット オフセット ベロシティ F1 スコアで従来のピアノロール出力 0.01 および 0.022 を上回り、任意のロールベース音楽転写エンコーダのパフォーマンス強化プラグインとしての可能性を実証しました。

要約(オリジナル)

Automatic Music Transcription (AMT), aiming to get musical notes from raw audio, typically uses frame-level systems with piano-roll outputs or language model (LM)-based systems with note-level predictions. However, frame-level systems require manual thresholding, while the LM-based systems struggle with long sequences. In this paper, we propose a hybrid method combining pre-trained roll-based encoders with an LM decoder to leverage the strengths of both methods. Besides, our approach employs a hierarchical prediction strategy, first predicting onset and pitch, then velocity, and finally offset. The hierarchical prediction strategy reduces computational costs by breaking down long sequences into different hierarchies. Evaluated on two benchmark roll-based encoders, our method outperforms traditional piano-roll outputs 0.01 and 0.022 in onset-offset-velocity F1 score, demonstrating its potential as a performance-enhancing plug-in for arbitrary roll-based music transcription encoder.

arxiv情報

著者 Dichucheng Li,Yongyi Zang,Qiuqiang Kong
発行日 2025-01-07 15:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク