Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges

要約

Shazam のような先駆者に代表されるオーディオ フィンガープリンティングは、デジタル オーディオ認識を変革しました。
しかし、既存のシステムは困難な条件下での精度が低く、幅広い適用性が制限されています。
この研究では、精度を向上させるために AI と ML を統合したオーディオ フィンガープリンティング アルゴリズムを提案します。
Dejavu プロジェクトの基礎に基づいて構築されたこの研究は、さまざまな背景ノイズと歪みを伴う現実世界のシナリオ シミュレーションに重点を置いています。
Dejavu のモデルの中心となる信号処理には、高速フーリエ変換、スペクトログラム、ピーク抽出が含まれます。
「コンステレーション」の概念とフィンガープリントのハッシュにより、一意の曲の識別が可能になります。
パフォーマンス評価では、5 秒間の音声入力内で 100% の精度が証明され、システムは効率性を高める予測可能なマッチング速度を示します。
ストレージ分析は、実際の実装にとって重要なスペースと速度のトレードオフを浮き彫りにします。
この研究により、オーディオ フィンガープリンティングの適応性が向上し、さまざまな環境やアプリケーションにおける課題に対処できます。

要約(オリジナル)

Audio fingerprinting, exemplified by pioneers like Shazam, has transformed digital audio recognition. However, existing systems struggle with accuracy in challenging conditions, limiting broad applicability. This research proposes an AI and ML integrated audio fingerprinting algorithm to enhance accuracy. Built on the Dejavu Project’s foundations, the study emphasizes real-world scenario simulations with diverse background noises and distortions. Signal processing, central to Dejavu’s model, includes the Fast Fourier Transform, spectrograms, and peak extraction. The ‘constellation’ concept and fingerprint hashing enable unique song identification. Performance evaluation attests to 100% accuracy within a 5-second audio input, with a system showcasing predictable matching speed for efficiency. Storage analysis highlights the critical space-speed trade-off for practical implementation. This research advances audio fingerprinting’s adaptability, addressing challenges in varied environments and applications.

arxiv情報

著者 Navin Kamuni,Sathishkumar Chintala,Naveen Kunchakuri,Jyothi Swaroop Arlagadda Narasimharaju,Venkat Kumar
発行日 2024-02-21 17:37:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク