PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification

要約

話者認証システムは、音声による身元認証に不可欠です。
従来、これらのシステムは特徴ベクトルの比較に重点を置き、音声の内容は無視していました。
しかし、この論文では、話者検証における重要な手がかりとして、音素の周波数または長さの尺度である音声優位性の重要性を強調することで、これに異議を唱えています。
新しい音素偏り解消アテンション フレームワーク (PDAF) が導入され、既存のアテンション フレームワークと統合され、音声優位性によって引き起こされるバイアスが軽減されます。
PDAF は各音素の重み付けを調整し、特徴抽出に影響を与えるため、音声のより微妙な分析が可能になります。
このアプローチにより、音声によるより正確で信頼性の高い ID 認証への道が開かれます。
さらに、さまざまな重み付け戦略を採用することで、話者認証システムの有効性に対する音声特徴の影響を評価します。

要約(オリジナル)

Speaker verification systems are crucial for authenticating identity through voice. Traditionally, these systems focus on comparing feature vectors, overlooking the speech’s content. However, this paper challenges this by highlighting the importance of phonetic dominance, a measure of the frequency or duration of phonemes, as a crucial cue in speaker verification. A novel Phoneme Debiasing Attention Framework (PDAF) is introduced, integrating with existing attention frameworks to mitigate biases caused by phonetic dominance. PDAF adjusts the weighting for each phoneme and influences feature extraction, allowing for a more nuanced analysis of speech. This approach paves the way for more accurate and reliable identity authentication through voice. Furthermore, by employing various weighting strategies, we evaluate the influence of phonetic features on the efficacy of the speaker verification system.

arxiv情報

著者 Massa Baali,Abdulhamid Aldoobi,Hira Dhamyal,Rita Singh,Bhiksha Raj
発行日 2024-09-09 17:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD パーマリンク