Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

要約

ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて目覚ましい結果を示していますが、これらの結果の正確な原因についてはほとんど理解されていないのは不満です。
これまでの研究での成功の一部は、超分節時間情報 (SST) をモデル化する能力、つまり、スペクトルの特徴に加えて音声のリズミック韻律特性を学習する能力に起因すると考えられていました。
この論文では、(i) 話者認識のための最先端のニューラル ネットワークのパフォーマンスが SST のモデル化によってどの程度説明できるかを定量化するための新しいテストを提示および適用します。
(ii) それぞれのネットが SST にさらに重点を置き、そのメリットを評価するよう強制するためのいくつかの手段を提示します。
話者認識のためのさまざまな CNN および RNN ベースのニューラル ネットワーク アーキテクチャは、強制した場合でも、十分な程度まで SST をモデル化していないことがわかりました。
この結果は、完全な音声信号をより効果的に活用するための影響力のある将来の研究に非常に関連性の高い基礎を提供し、そのようなネットワークの内部動作についての洞察を与え、音声技術の深層学習の説明可能性を高めます。

要約(オリジナル)

While deep neural networks have shown impressive results in automatic speaker recognition and related tasks, it is dissatisfactory how little is understood about what exactly is responsible for these results. Part of the success has been attributed in prior work to their capability to model supra-segmental temporal information (SST), i.e., learn rhythmic-prosodic characteristics of speech in addition to spectral features. In this paper, we (i) present and apply a novel test to quantify to what extent the performance of state-of-the-art neural networks for speaker recognition can be explained by modeling SST; and (ii) present several means to force respective nets to focus more on SST and evaluate their merits. We find that a variety of CNN- and RNN-based neural network architectures for speaker recognition do not model SST to any sufficient degree, even when forced. The results provide a highly relevant basis for impactful future research into better exploitation of the full speech signal and give insights into the inner workings of such networks, enhancing explainability of deep learning for speech technologies.

arxiv情報

著者 Daniel Neururer,Volker Dellwo,Thilo Stadelmann
発行日 2023-11-02 06:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク