Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper’s Encoder for Efficient Parameter Reduction in Automated Assessment

要約

st音の自動分類は、音声言語病理学者に支援を提供するタイムリーな評価に大きな意味を持ちます。
この分野での顕著な進歩にもかかわらず、音声で複数の障害が発生する場合には注意が必要です。
マルチスタッタースピーチをより効率的に分類することにより、このギャップを埋めるために進歩的なアプローチを取りました。
この問題は、最初にオープンソースデータセットSEP-28Kオーディオクリップからのマルチスタッター解散のデータセットをキュレーションすることによって対処されています。
第二に、Whisperを採用すると、最先端の音声認識モデルがエンコーダーを使用し、マルチラベル分類として問題を引き受けることにより、活用されています。
第三に、6つのエンコーダーレイヤーのささやきを使用して、さまざまなレイヤーフリーズ戦略を実験して、モデルの計算効率的な構成が識別されました。
提案された構成は、0.88、0.85、および0.87のマイクロ、マクロ、および加重F1スコアを達成しました。
さらに、レイヤーフリーズ戦略を介して、単一のエンコーダーレイヤーを微調整することで前述の結果を達成することができ、その結果、モデルのトレーニング可能なパラメーターが2027万から329百万に減少しました。
この調査研究では、utter音を立てた音声における障害の識別における最後のエンコーダー層の貢献を明らかにします。
その結果、計算上効率的なアプローチ、トレーニングするパラメーターが83.7%少なくなり、提案されたアプローチがさまざまな方言や言語に対してより適応性があるようになりました。

要約(オリジナル)

The automated classification of stuttered speech has significant implications for timely assessments providing assistance to speech language pathologists. Despite notable advancements in the field, the cases in which multiple disfluencies occur in speech require attention. We have taken a progressive approach to fill this gap by classifying multi-stuttered speech more efficiently. The problem has been addressed by firstly curating a dataset of multi-stuttered disfluencies from open source dataset SEP-28k audio clips. Secondly, employing Whisper, a state-of-the-art speech recognition model has been leveraged by using its encoder and taking the problem as multi label classification. Thirdly, using a 6 encoder layer Whisper and experimenting with various layer freezing strategies, a computationally efficient configuration of the model was identified. The proposed configuration achieved micro, macro, and weighted F1-scores of 0.88, 0.85, and 0.87, correspondingly on an external test dataset i.e. Fluency-Bank. In addition, through layer freezing strategies, we were able to achieve the aforementioned results by fine-tuning a single encoder layer, consequently, reducing the model’s trainable parameters from 20.27 million to 3.29 million. This research study unveils the contribution of the last encoder layer in the identification of disfluencies in stuttered speech. Consequently, it has led to a computationally efficient approach, 83.7% less parameters to train, making the proposed approach more adaptable for various dialects and languages.

arxiv情報

著者 Huma Ameer,Seemab Latif,Mehwish Fatima
発行日 2025-02-26 17:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク