Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification

要約

時間遅延ニューラル ネットワーク (TDNN) は、テキストに依存しない話者検証の最先端モデルの 1 つです。
ただし、従来の TDNN では、最近の多くの研究で堅牢な話者表現と長時間の話者検証に不可欠であることが証明されているグローバル コンテキストをキャプチャすることは困難です。
さらに、自己注意などの一般的なソリューションは、入力トークンの二次的な複雑さを持っているため、TDNN の大きなサイズの特徴マップに適用すると、計算的に手頃な価格になりません。
これらの問題に対処するために、TDNN のグローバル フィルターを提案します。これは、対数線形複雑度 FFT/IFFT と一連の微分可能な周波数領域フィルターを適用して、音声の長期的な依存関係を効率的にモデル化します。
さらに、動的フィルタリング戦略とスパース正則化手法は、グローバル フィルターのパフォーマンスを向上させ、過剰適合を防ぐように特別に設計されています。
さらに、複雑さを軽減するために基本チャネルを分割し、グローバルフィルターを使用して認識パフォーマンスを向上させるデュアルストリーム TDNN (DS-TDNN) を構築します。
Voxceleb および SITW データベースでの実験では、DS-TDNN が約 10% の改善を達成し、ECAPA-TDNN と比較して複雑さとパラメーターが 28% および 15% 以上低下することが示されています。
さらに、長時間の発話に直面した場合、他の一般的なベースライン システムと比較して、効率と有効性の間の最適なトレードオフがあります。
最後に、視覚化と詳細なアブレーション研究により、DS-TDNN の利点がさらに明らかになります。

要約(オリジナル)

The time-delay neural network (TDNN) is one of the state-of-the-art models for text-independent speaker verification. However, it is difficult for conventional TDNN to capture global context that has been proven critical for robust speaker representations and long-duration speaker verification in many recent works. Besides, the common solutions, e.g., self-attention, have quadratic complexity for input tokens, which makes them computationally unaffordable when applied to the feature maps with large sizes in TDNN. To address these issues, we propose the Global Filter for TDNN, which applies log-linear complexity FFT/IFFT and a set of differentiable frequency-domain filters to efficiently model the long-term dependencies in speech. Besides, a dynamic filtering strategy, and a sparse regularization method are specially designed to enhance the performance of the global filter and prevent it from overfitting. Furthermore, we construct a dual-stream TDNN (DS-TDNN), which splits the basic channels for complexity reduction and employs the global filter to increase recognition performance. Experiments on Voxceleb and SITW databases show that the DS-TDNN achieves approximate 10% improvement with a decline over 28% and 15% in complexity and parameters compared with the ECAPA-TDNN. Besides, it has the best trade-off between efficiency and effectiveness compared with other popular baseline systems when facing long-duration speech. Finally, visualizations and a detailed ablation study further reveal the advantages of the DS-TDNN.

arxiv情報

著者 Yangfu Li,Xiaodan Lin
発行日 2023-03-20 10:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.AI, cs.SD, eess.AS, I.2.1 パーマリンク