Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform

要約

自動音楽転写(AMT)は、音楽のオーディオ録音を分析し、再生されているメモを検出する問題です。
特にポリフォニック音楽に関しては、AMTは挑戦的な問題です。
AMTの目標は、同時に再生された複数の音符を含むサウンド信号を分析することにより、音楽作品のスコア表現を作成することです。
この作業では、.WAV形式のクラシックピアノオーディオファイルを音楽スコア表現に変換できる処理パイプラインを設計します。
オーディオ信号からの機能は、定数Q変換を使用して抽出され、結果の係数は畳み込みニューラルネットワーク(CNN)モデルへの入力として使用されます。

要約(オリジナル)

Automatic music transcription (AMT) is the problem of analyzing an audio recording of a musical piece and detecting notes that are being played. AMT is a challenging problem, particularly when it comes to polyphonic music. The goal of AMT is to produce a score representation of a music piece, by analyzing a sound signal containing multiple notes played simultaneously. In this work, we design a processing pipeline that can transform classical piano audio files in .wav format into a music score representation. The features from the audio signals are extracted using the constant-Q transform, and the resulting coefficients are used as an input to the convolutional neural network (CNN) model.

arxiv情報

著者 Yohannis Telila,Tommaso Cucinotta,Davide Bacciu
発行日 2025-05-07 14:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク