要約
音声言語識別(LID)でよく使われる特徴量、例えばmel-spectrogramやMFCCは、ウィンドウ化によって高周波数情報が失われる。この損失は、時間的文脈が長いほど大きくなる。低リソースのLIDシステムの汎化を改善するために、我々はウェーブレット散乱変換(WST)という、欠点を補う代替特徴表現を研究している。われわれの知る限り、WSTはLIDタスクにおいて以前に検討されたことはない。我々はまず、複数の南アジアのLIDコーパスに対してWST特徴を最適化する。LIDは低いオクターブ分解能を必要とし、周波数散乱は有用ではないことを示す。さらに、コーパスを横断した評価により、最適なWSTハイパーパラメータは訓練コーパスとテストコーパスの両方に依存することを示す。したがって、我々は、未知データに対する汎化を改善するために、異なるWSTハイパーパラメータのセットを持つ融合ECAPA-TDNNベースのLIDシステムを開発する。MFCCと比較して、EERは同コーパスとブラインドVoxLingua107評価において、それぞれ14.05%と6.40%まで減少した。
要約(オリジナル)
Commonly used features in spoken language identification (LID), such as mel-spectrogram or MFCC, lose high-frequency information due to windowing. The loss further increases for longer temporal contexts. To improve generalization of the low-resourced LID systems, we investigate an alternate feature representation, wavelet scattering transform (WST), that compensates for the shortcomings. To our knowledge, WST is not explored earlier in LID tasks. We first optimize WST features for multiple South Asian LID corpora. We show that LID requires low octave resolution and frequency-scattering is not useful. Further, cross-corpora evaluations show that the optimal WST hyper-parameters depend on both train and test corpora. Hence, we develop fused ECAPA-TDNN based LID systems with different sets of WST hyper-parameters to improve generalization for unknown data. Compared to MFCC, EER is reduced upto 14.05% and 6.40% for same-corpora and blind VoxLingua107 evaluations, respectively.
arxiv情報
著者 | Spandan Dey,Premjeet Singh,Goutam Saha |
発行日 | 2023-10-03 08:00:53+00:00 |
arxivサイト | arxiv_id(pdf) |