Source Separation & Automatic Transcription for Music

要約

ソース分離は、複数の音の聴覚的混合から個々の音を分離するプロセスであり [1]、音声強調や歌詞の転写 [2] から音楽のデジタル オーディオ制作に至るまで、さまざまな用途があります。
さらに、自動音楽転写 (AMT) は、生の音楽オーディオを音楽家が読める楽譜に変換するプロセスです [3]。
歴史的に、これらのタスクは、重大な音声ノイズ、長いトレーニング時間、著作権制限による自由に使用できるデータの不足などの課題に直面してきました。
しかし、ディープラーニングの最近の発展により、低歪みのステムを構築し、オーディオ信号から楽譜を生成するための新たな有望なアプローチがもたらされています[4]。
スペクトログラム マスキング、ディープ ニューラル ネットワーク、MuseScore API を使用して、最初の音楽オーディオ ミクスチャ (例: wav ファイル) を楽器ステムに分離し、MIDI ファイルに変換できるようにするエンドツーエンドのパイプラインの作成を試みます。
、そして各構成楽器の楽譜に転記されます。

要約(オリジナル)

Source separation is the process of isolating individual sounds in an auditory mixture of multiple sounds [1], and has a variety of applications ranging from speech enhancement and lyric transcription [2] to digital audio production for music. Furthermore, Automatic Music Transcription (AMT) is the process of converting raw music audio into sheet music that musicians can read [3]. Historically, these tasks have faced challenges such as significant audio noise, long training times, and lack of free-use data due to copyright restrictions. However, recent developments in deep learning have brought new promising approaches to building low-distortion stems and generating sheet music from audio signals [4]. Using spectrogram masking, deep neural networks, and the MuseScore API, we attempt to create an end-to-end pipeline that allows for an initial music audio mixture (e.g…wav file) to be separated into instrument stems, converted into MIDI files, and transcribed into sheet music for each component instrument.

arxiv情報

著者 Bradford Derby,Lucas Dunker,Samarth Galchar,Shashank Jarmale,Akash Setti
発行日 2024-12-09 17:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク