要約
人間の聞き手は、音声認識中に音韻上の変化を容易に補正し、意図した音を無意識に推測することがよくあります。
たとえば、聞き手は「clea[m] pan」などの発話を聞くと、その根底にある /n/ を推測します。ここで [m] は、次の唇音 [p] への場所同化から生じます。
この記事では、ニューラル音声認識モデル Wav2Vec2 が同化された音をどのように認識するかを調査し、自動音声認識 (ASR) 中の同化を補償するためにモデルによって実装される言語知識を特定します。
心理言語刺激を使用して、さまざまな言語コンテキストの手がかりがモデルの出力の補償パターンにどのように影響するかを系統的に分析します。
これらの行動実験を補足するものとして、私たちの精査実験は、モデルが同化された音の解釈をその音響的形式から最終層の基礎的な形式に移行させることを示しています。
最後に、私たちの因果的介入実験は、このモデルがこの変化を達成するために最小限の音韻的文脈の手がかりに依存していることを示唆しています。
これらの発見は、神経 ASR モデルと人間の間の音韻処理における類似点と相違点をより深く理解するための一歩を表しています。
要約(オリジナル)
Human listeners effortlessly compensate for phonological changes during speech perception, often unconsciously inferring the intended sounds. For example, listeners infer the underlying /n/ when hearing an utterance such as ‘clea[m] pan’, where [m] arises from place assimilation to the following labial [p]. This article explores how the neural speech recognition model Wav2Vec2 perceives assimilated sounds, and identifies the linguistic knowledge that is implemented by the model to compensate for assimilation during Automatic Speech Recognition (ASR). Using psycholinguistic stimuli, we systematically analyze how various linguistic context cues influence compensation patterns in the model’s output. Complementing these behavioral experiments, our probing experiments indicate that the model shifts its interpretation of assimilated sounds from their acoustic form to their underlying form in its final layers. Finally, our causal intervention experiments suggest that the model relies on minimal phonological context cues to accomplish this shift. These findings represent a step towards better understanding the similarities and differences in phonological processing between neural ASR models and humans.
arxiv情報
著者 | Charlotte Pouw,Marianne de Heer Kloots,Afra Alishahi,Willem Zuidema |
発行日 | 2024-06-21 15:58:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google