Audio-to-Score Conversion Model Based on Whisper methodology

要約

この論文では、音楽オーディオからメロディーとコードを抽出し、ABC 記譜法に記録する Whisper に基づいた Transformer モデルを開発します。
データ クレンジング、フォーマット、変換を含む包括的なデータ処理ワークフローが ABC 表記用にカスタマイズされており、トレーニング データの多様性と品質を高めるために突然変異メカニズムが実装されています。
この論文は、音楽情報をトークンに変換し、カスタム語彙ライブラリを設計し、対応するカスタム トークナイザーをトレーニングするカスタム記譜システムである「Orpheus’ Score」を革新的に導入します。
実験の結果、従来のアルゴリズムと比較して、このモデルの精度とパフォーマンスが大幅に向上していることがわかりました。
この作品は、音楽愛好家に便利なオーディオからスコアへのツールを提供すると同時に、音楽情報処理の研究のための新しいアイデアとツールも提供します。

要約(オリジナル)

This thesis develops a Transformer model based on Whisper, which extracts melodies and chords from music audio and records them into ABC notation. A comprehensive data processing workflow is customized for ABC notation, including data cleansing, formatting, and conversion, and a mutation mechanism is implemented to increase the diversity and quality of training data. This thesis innovatively introduces the ‘Orpheus’ Score’, a custom notation system that converts music information into tokens, designs a custom vocabulary library, and trains a corresponding custom tokenizer. Experiments show that compared to traditional algorithms, the model has significantly improved accuracy and performance. While providing a convenient audio-to-score tool for music enthusiasts, this work also provides new ideas and tools for research in music information processing.

arxiv情報

著者 Hongyao Zhang,Bohang Sun
発行日 2024-10-22 17:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク