Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks

要約

このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0を検出するための新しいアプローチを紹介し、スペクトログラム画像からピッチを直接推定します。
私たちの新しいアプローチは、非常に優れた検出精度を示しています。
予測されたピッチの等高線の合計92%は、真のピッチの輪郭と強いまたは中程度の相関を持っています。
さらに、新しいアプローチと他の最先端のCNNメソッドとの実験的な比較により、このアプローチは、さまざまな信号対雑音比条件で検出率を約5%増強できることが明らかになりました。

要約(オリジナル)

This paper presents a novel approach to detect F0 through Convolutional Neural Networks and image processing techniques to directly estimate pitch from spectrogram images. Our new approach demonstrates a very good detection accuracy; a total of 92% of predicted pitch contours have strong or moderate correlations to the true pitch contours. Furthermore, the experimental comparison between our new approach and other state-of-the-art CNN methods reveals that our approach can enhance the detection rate by approximately 5% across various Signal-to-Noise Ratio conditions.

arxiv情報

著者 Xufang Zhao,Omer Tsimhoni
発行日 2025-04-08 16:01:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク