要約
近年、音楽転写に関する研究は、主にアーキテクチャ設計と楽器固有のデータ取得に焦点を当ててきました。
多様なデータセットが利用できないため、進歩はピアノの採譜などのソロ楽器のタスクに限定されることがよくあります。
いくつかの研究では、低リソースのタスクでモデルのパフォーマンスを強化する手段としてマルチインストゥルメントのトランスクリプションが検討されていますが、これらの方法でも同じデータ可用性の問題に直面しています。
私たちは、ピッチと音色の強い分離性を利用して、音楽の転写とオーディオの再構成を統合する新しいフレームワークである Timbre-Trap を提案します。
単一の U-Net をトレーニングして、ピッチ顕著性の推定と複雑なスペクトル係数の再構築を同時に行い、デコード段階で単純なスイッチ メカニズムを介してどちらかの出力を選択します。
このようにして、モデルは、ピッチ顕著性として解釈できる音色のないオーディオに対応する係数を生成することを学習します。
我々は、このフレームワークが、少量の注釈付きデータのみを必要としながら、最先端の機器に依存しない転写方法と同等のパフォーマンスをもたらすことを実証します。
要約(オリジナル)
In recent years, research on music transcription has focused mainly on architecture design and instrument-specific data acquisition. With the lack of availability of diverse datasets, progress is often limited to solo-instrument tasks such as piano transcription. Several works have explored multi-instrument transcription as a means to bolster the performance of models on low-resource tasks, but these methods face the same data availability issues. We propose Timbre-Trap, a novel framework which unifies music transcription and audio reconstruction by exploiting the strong separability between pitch and timbre. We train a single U-Net to simultaneously estimate pitch salience and reconstruct complex spectral coefficients, selecting between either output during the decoding stage via a simple switch mechanism. In this way, the model learns to produce coefficients corresponding to timbre-less audio, which can be interpreted as pitch salience. We demonstrate that the framework leads to performance comparable to state-of-the-art instrument-agnostic transcription methods, while only requiring a small amount of annotated data.
arxiv情報
著者 | Frank Cwitkowitz,Kin Wai Cheuk,Woosung Choi,Marco A. Martínez-Ramírez,Keisuke Toyama,Wei-Hsiang Liao,Yuki Mitsufuji |
発行日 | 2023-09-27 15:19:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google