要約
ニューラルのセミマルコフ条件付きランダムフィールド(セミCRF)フレームワークは、イベントベースのピアノ転写に有望であることが実証されています。
このフレームワークでは、すべてのイベント (ノートまたはペダル) は、特定のイベント タイプに関連付けられた閉じた間隔として表されます。
ニューラルセミ CRF アプローチでは、すべての候補区間にスコアを割り当てる区間スコアリング行列が必要です。
ただし、スコア間隔のための効率的で表現力豊かなアーキテクチャを設計することは簡単ではありません。
この論文では、変圧器でアテンション スコアリングが行われる方法に似た、スケーリングされた内積演算を使用して区間をスコアリングする簡単な方法を紹介します。
我々は、重なり合わない間隔のエンコードによる特別な構造により、穏やかな条件下では、内積演算が正しい転写結果を生み出すことができる理想的なスコア行列を表すのに十分な表現力を持つことを理論的に示します。
次に、低時間解像度の特徴マップ上でのみ動作するエンコーダーのみの非階層トランスフォーマー バックボーンが、ピアノの音符とペダルを高い精度と時間精度で転写できることを実証します。
この実験は、私たちのアプローチが、Maestro データセットの F1 測定に関して、すべてのサブタスクにわたって新しい最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
The neural semi-Markov Conditional Random Field (semi-CRF) framework has demonstrated promise for event-based piano transcription. In this framework, all events (notes or pedals) are represented as closed intervals tied to specific event types. The neural semi-CRF approach requires an interval scoring matrix that assigns a score for every candidate interval. However, designing an efficient and expressive architecture for scoring intervals is not trivial. In this paper, we introduce a simple method for scoring intervals using scaled inner product operations that resemble how attention scoring is done in transformers. We show theoretically that, due to the special structure from encoding the non-overlapping intervals, under a mild condition, the inner product operations are expressive enough to represent an ideal scoring matrix that can yield the correct transcription result. We then demonstrate that an encoder-only non-hierarchical transformer backbone, operating only on a low-time-resolution feature map, is capable of transcribing piano notes and pedals with high accuracy and time precision. The experiment shows that our approach achieves the new state-of-the-art performance across all subtasks in terms of the F1 measure on the Maestro dataset.
arxiv情報
| 著者 | Yujia Yan,Zhiyao Duan | 
| 発行日 | 2024-04-22 15:54:08+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
