Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

要約

最先端の話者検証フレームワークは通常、検証パフォーマンスを向上させるために、より深く (より多くのレイヤー)、より広い (チャネル数) モデルを使用してモデルを開発することに重点を置いてきました。
代わりに、このホワイト ペーパーでは、畳み込みニューラル ネットワークでアテンション ベースの動的カーネルを使用して、モデル パラメーターを機能条件付きに適応させることで、モデルの解決能力を向上させるアプローチを提案します。
カーネルのアテンション ウェイトは、音声からグローバルな機能を学習するために、チャネル アテンションと多層機能集約によってさらに抽出されます。
このアプローチは、より少ないデータ リソースで表現能力を向上させるための効率的なソリューションを提供します。
これは、モデル パラメーターの構造の入力に対する自己適応によるものです。
提案された動的畳み込みモデルは、VoxCeleb1 テスト セットで 1.62\% EER および 0.18 miniDCF を達成し、同じトレーニング リソースを使用した ECAPA-TDNN と比較して 17\% の相対的な改善を示しました。

要約(オリジナル)

State-of-the-art speaker verification frameworks have typically focused on developing models with increasingly deeper (more layers) and wider (number of channels) models to improve their verification performance. Instead, this paper proposes an approach to increase the model resolution capability using attention-based dynamic kernels in a convolutional neural network to adapt the model parameters to be feature-conditioned. The attention weights on the kernels are further distilled by channel attention and multi-layer feature aggregation to learn global features from speech. This approach provides an efficient solution to improving representation capacity with lower data resources. This is due to the self-adaptation to inputs of the structures of the model parameters. The proposed dynamic convolutional model achieved 1.62\% EER and 0.18 miniDCF on the VoxCeleb1 test set and has a 17\% relative improvement compared to the ECAPA-TDNN using the same training resources.

arxiv情報

著者 Anna Ollerenshaw,Md Asif Jalal,Thomas Hain
発行日 2023-02-27 10:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク