Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems

要約

深層学習アーキテクチャは、多くの研究分野でパフォーマンスの面で大幅な進歩を遂げました。
したがって、自動音声認識 (ASR) 分野は、特に音響モデリングにおいてこれらの科学技術の進歩の恩恵を受けており、現在ではディープ ニューラル ネットワーク アーキテクチャが統合されています。
ただし、これらのパフォーマンスの向上は、ブラックボックス アーキテクチャを通じて学習および伝達される情報に関する複雑さの増大につながりました。
ニューラル ネットワークの解釈可能性に関する多くの研究を経て、この記事では、ASR 音響モデル (AM) 内のどの情報がどこに位置するかを決定することを目的としたプロトコルを提案します。
そのために、中間表現 (ここでは異なる層レベル) を使用して、決定されたタスクのセットで AM パフォーマンスを評価することを提案します。
パフォーマンスの変動と対象となるタスクに関して、アーキテクチャのさまざまなステップでどの情報が強化または混乱するかについての仮説を立てることができます。
実験は、話者検証、音響環境分類、性別分類、テンポ歪み検出システム、および発話感情/感情識別の両方について実行されます。
分析の結果、ニューラルベースの AM は、感情、センチメント、話者のアイデンティティなど、音素認識とは驚くほど相関関係がないと思われる異種の情報を保持していることが示されました。
下位レベルの隠れ層は全体的に情報の構造化に役立つように見えますが、上位層は音素認識に不要な情報を削除する傾向があります。

要約(オリジナル)

Deep learning architectures have made significant progress in terms of performance in many research areas. The automatic speech recognition (ASR) field has thus benefited from these scientific and technological advances, particularly for acoustic modeling, now integrating deep neural network architectures. However, these performance gains have translated into increased complexity regarding the information learned and conveyed through these black-box architectures. Following many researches in neural networks interpretability, we propose in this article a protocol that aims to determine which and where information is located in an ASR acoustic model (AM). To do so, we propose to evaluate AM performance on a determined set of tasks using intermediate representations (here, at different layer levels). Regarding the performance variation and targeted tasks, we can emit hypothesis about which information is enhanced or perturbed at different architecture steps. Experiments are performed on both speaker verification, acoustic environment classification, gender classification, tempo-distortion detection systems and speech sentiment/emotion identification. Analysis showed that neural-based AMs hold heterogeneous information that seems surprisingly uncorrelated with phoneme recognition, such as emotion, sentiment or speaker identity. The low-level hidden layers globally appears useful for the structuring of information while the upper ones would tend to delete useless information for phoneme recognition.

arxiv情報

著者 Quentin Raymondaud,Mickael Rouvier,Richard Dufour
発行日 2024-02-29 18:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク