Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

要約

自動音楽転写 (AMT) は、音楽情報処理の分野において重要なテクノロジーです。
最近の機械学習技術によるパフォーマンスの向上にも関わらず、現在の手法は通常、豊富な注釈付きデータが利用可能な領域で高い精度を達成します。
リソースが少ない、またはリソースがまったくないドメインに対処することは、依然として未解決の課題です。
この問題に取り組むために、アノテーションなしのリアルオーディオを使用した事前トレーニングと敵対的ドメインの混乱にスケーラブルな合成オーディオを利用することで、MIDI オーディオのペアデータを必要としない転写モデルを提案します。
実験では、トレーニング データセットにターゲット データ ドメイン内のオーディオの MIDI アノテーションが含まれていない現実世界のアプリケーション シナリオでメソッドを評価します。
私たちが提案した方法は、ペアになった MIDI オーディオの実際のデータセットを利用していないにもかかわらず、確立されたベースライン方法と比較して競争力のあるパフォーマンスを達成しました。
さらに、アブレーション研究は、このアプローチの拡張性と、AMT 研究分野における今後の課題についての洞察を提供しました。

要約(オリジナル)

Automatic Music Transcription (AMT) is a vital technology in the field of music information processing. Despite recent enhancements in performance due to machine learning techniques, current methods typically attain high accuracy in domains where abundant annotated data is available. Addressing domains with low or no resources continues to be an unresolved challenge. To tackle this issue, we propose a transcription model that does not require any MIDI-audio paired data through the utilization of scalable synthetic audio for pre-training and adversarial domain confusion using unannotated real audio. In experiments, we evaluate methods under the real-world application scenario where training datasets do not include the MIDI annotation of audio in the target data domain. Our proposed method achieved competitive performance relative to established baseline methods, despite not utilizing any real datasets of paired MIDI-audio. Additionally, ablation studies have provided insights into the scalability of this approach and the forthcoming challenges in the field of AMT research.

arxiv情報

著者 Gakusei Sato,Taketo Akama
発行日 2023-12-31 02:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク