Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings

要約

音楽制作とオーディオ処理の分野では、オートチューンとしても知られる歌声の自動ピッチ補正の実装により、ボーカルパフォーマンスの状況が大きく変わりました。
自動チューニング技術はミュージシャンにボーカルのピッチを調整し、望ましいレベルの精度を達成する機能を提供してきましたが、その使用はまた、真正性と芸術的完全性への影響についての議論を引き起こしました。
その結果、音楽録音中の自動チューニングされたボーカルの検出と分析は、音楽学者、プロデューサー、リスナーにとって不可欠なものとなっています。
しかし、私たちの知る限り、この方向に向けたこれまでの取り組みは行われていません。
この研究では、オリジナルのオーディオ クリップと自動チューニングされたオーディオ クリップで構成されるデータセットの作成に裏打ちされた、自動チューニングされた曲の検出にトリプレット ネットワークを活用するデータ駆動型のアプローチを導入します。
実験結果は、スプーフィング対策のために提案され、他のオーディオフォレンジックタスクに広く使用されているエンドツーエンドモデルである Rawnet2 と比較して、提案された方法が精度と堅牢性の両方で優れていることを示しています。

要約(オリジナル)

In the domain of music production and audio processing, the implementation of automatic pitch correction of the singing voice, also known as Auto-Tune, has significantly transformed the landscape of vocal performance. While auto-tuning technology has offered musicians the ability to tune their vocal pitches and achieve a desired level of precision, its use has also sparked debates regarding its impact on authenticity and artistic integrity. As a result, detecting and analyzing Auto-Tuned vocals in music recordings has become essential for music scholars, producers, and listeners. However, to the best of our knowledge, no prior effort has been made in this direction. This study introduces a data-driven approach leveraging triplet networks for the detection of Auto-Tuned songs, backed by the creation of a dataset composed of original and Auto-Tuned audio clips. The experimental results demonstrate the superiority of the proposed method in both accuracy and robustness compared to Rawnet2, an end-to-end model proposed for anti-spoofing and widely used for other audio forensic tasks.

arxiv情報

著者 Mahyar Gohari,Paolo Bestagini,Sergio Benini,Nicola Adami
発行日 2024-03-08 15:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク