Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled and Synthetic Data

要約

音楽とサウンド処理の分野では、ピッチ抽出が極めて重要な役割を果たします。
私たちの研究では、特にアカペラ演奏における人間の歌声からピッチを抽出するために設計された特殊な畳み込みニューラル ネットワークを紹介します。
特に、私たちのアプローチは合成データと自動ラベル付けされたアカペラで歌った音声を組み合わせて、堅牢なトレーニング環境を作成します。
合成音声、オペラ録音、および時間伸長された母音で構成されるデータセットにわたる評価により、その有効性が実証されます。
この取り組みにより、音楽設定と音声設定の両方でピッチ抽出を強化する道が開かれます。

要約(オリジナル)

In the domain of music and sound processing, pitch extraction plays a pivotal role. Our research presents a specialized convolutional neural network designed for pitch extraction, particularly from the human singing voice in acapella performances. Notably, our approach combines synthetic data with auto-labeled acapella sung audio, creating a robust training environment. Evaluation across datasets comprising synthetic sounds, opera recordings, and time-stretched vowels demonstrates its efficacy. This work paves the way for enhanced pitch extraction in both music and voice settings.

arxiv情報

著者 Jeremy Cochoy
発行日 2023-12-17 17:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク