Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification


タイトル:Speaker VerificationのためのDual-stream Time-Delay Neural Network with Dynamic Global Filter

– 時間遅延神経ネットワーク(TDNN)は、テキスト非依存の話者検証の最新モデルの1つです。
– しかし、従来のTDNNは、多くの最近の研究で堅牢な話者表現と長時間の話者検証に関して重要であることが証明されたグローバルな文脈を捕捉するのが困難であるという問題があります。
– さらに、通常の解決策(自己注意など)は、入力トークンの二次計算量を持つため、TDNNの大規模なサイズでの特徴マップに適用すると計算コストが高くなるという問題があります。
– この問題を解決するために、グローバルフィルターを提案しました。グローバルフィルターは、長期依存関係を効率的にモデル化するために、対数線形複雑度FFT / IFFTと一連の微分可能な周波数領域フィルタを適用します。
– さらに、動的フィルタリング戦略とスパース正則化方法を特別に設計して、グローバルフィルターの性能を向上させ、過度に適合するのを防ぎます。
– さらに、デュアルストリームTDNN(DS-TDNN)を構築し、基本チャンネルを分割して複雑さを低減し、グローバルフィルターを利用して認識性能を向上させます。
– VoxcelebおよびSITWデータベース上の実験結果は、DS-TDNNが、ECAPA-TDNNと比較して28%と15%の複雑性とパラメーターの低下とともに、約10%の改善を達成することを示しています。
– さらに、長時間の発話に直面するとき、DS-TDNNは他の人気のあるベースラインシステムと比較して、効率と効果のトレードオフが最も優れています。
– 最後に、可視化と詳細な退化研究は、DS-TDNNの利点をさらに明らかにします。


The time-delay neural network (TDNN) is one of the state-of-the-art models for text-independent speaker verification. However, it is difficult for conventional TDNN to capture global context that has been proven critical for robust speaker representations and long-duration speaker verification in many recent works. Besides, the common solutions, e.g., self-attention, have quadratic complexity for input tokens, which makes them computationally unaffordable when applied to the feature maps with large sizes in TDNN. To address these issues, we propose the Global Filter for TDNN, which applies log-linear complexity FFT/IFFT and a set of differentiable frequency-domain filters to efficiently model the long-term dependencies in speech. Besides, a dynamic filtering strategy, and a sparse regularization method are specially designed to enhance the performance of the global filter and prevent it from overfitting. Furthermore, we construct a dual-stream TDNN (DS-TDNN), which splits the basic channels for complexity reduction and employs the global filter to increase recognition performance. Experiments on Voxceleb and SITW databases show that the DS-TDNN achieves approximate 10% improvement with a decline over 28% and 15% in complexity and parameters compared with the ECAPA-TDNN. Besides, it has the best trade-off between efficiency and effectiveness compared with other popular baseline systems when facing long-duration speech. Finally, visualizations and a detailed ablation study further reveal the advantages of the DS-TDNN.


著者 Yangfu Li,Xiaodan Lin
発行日 2023-04-18 04:32:23+00:00
