LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification

要約

従来の時間遅延ニューラル ネットワーク (TDNN) は、計算の複雑さと推論速度の低下を犠牲にして最先端のパフォーマンスを実現してきたため、産業環境での実装が困難でした。
Context Aware Masking (CAM) モジュールを備えた Densely Connected Time Delay Neural Network (D-TDNN) は、システム パフォーマンスを維持しながら複雑さを軽減する効率的な構造であることが証明されています。
この論文では、深さ方向分離可能な畳み込みモジュール (DSM) をさらに採用し、さまざまなレベルでの特徴融合にマルチスケール特徴集約 (MFA) を使用する、高速かつ軽量のモデル LightCAM を提案します。
VoxCeleb データセットに対して広範な実験が行われ、比較結果により、VoxCeleb1-O では EER 0.83 および MinDCF 0.0891 を達成し、他の主流の話者検証方法よりも優れていることがわかりました。
さらに、複雑さの分析により、提案されたアーキテクチャの計算コストが低く、推論速度が速いことがさらに実証されました。

要約(オリジナル)

Traditional Time Delay Neural Networks (TDNN) have achieved state-of-the-art performance at the cost of high computational complexity and slower inference speed, making them difficult to implement in an industrial environment. The Densely Connected Time Delay Neural Network (D-TDNN) with Context Aware Masking (CAM) module has proven to be an efficient structure to reduce complexity while maintaining system performance. In this paper, we propose a fast and lightweight model, LightCAM, which further adopts a depthwise separable convolution module (DSM) and uses multi-scale feature aggregation (MFA) for feature fusion at different levels. Extensive experiments are conducted on VoxCeleb dataset, the comparative results show that it has achieved an EER of 0.83 and MinDCF of 0.0891 in VoxCeleb1-O, which outperforms the other mainstream speaker verification methods. In addition, complexity analysis further demonstrates that the proposed architecture has lower computational cost and faster inference speed.

arxiv情報

著者 Di Cao,Xianchen Wang,Junfeng Zhou,Jiakai Zhang,Yanjing Lei,Wenpeng Chen
発行日 2024-02-12 15:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク