YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection

要約

流暢でない音声検出は、無秩序な音声分析や音声言語学習のボトルネックとなります。
現在の最先端のモデルは、ルールベースのシステムによって管理されており、効率性と堅牢性に欠けており、テンプレートの設計に影響を受けやすいです。
この論文では、時間精度の高い方法で流暢性障害を検出する最初のエンドツーエンド手法である YOLO-Stutter を提案します。
YOLO-Stutter は、不完全な音声テキストの位置合わせを入力として受け取り、続いて空間特徴アグリゲーターと時間依存関係エクストラクターを使用して、領域ごとの境界とクラスの予測を実行します。
また、反復、ブロック、欠落、置き換え、延長などの自然な音声流暢性の低下をシミュレートする 2 つの流暢性低下コ​​ーパス VCTK-Stutter と VCTK-TTS も紹介します。
当社のエンドツーエンド手法は、シミュレートされたデータと実際の失語症音声の両方に対して、最小限のトレーニング可能なパラメータで最先端のパフォーマンスを実現します。
コードとデータセットは https://github.com/rorizzz/YOLO-Stutter でオープンソース化されています。

要約(オリジナル)

Dysfluent speech detection is the bottleneck for disordered speech analysis and spoken language learning. Current state-of-the-art models are governed by rule-based systems which lack efficiency and robustness, and are sensitive to template design. In this paper, we propose YOLO-Stutter: a first end-to-end method that detects dysfluencies in a time-accurate manner. YOLO-Stutter takes imperfect speech-text alignment as input, followed by a spatial feature aggregator, and a temporal dependency extractor to perform region-wise boundary and class predictions. We also introduce two dysfluency corpus, VCTK-Stutter and VCTK-TTS, that simulate natural spoken dysfluencies including repetition, block, missing, replacement, and prolongation. Our end-to-end method achieves state-of-the-art performance with a minimum number of trainable parameters for on both simulated data and real aphasia speech. Code and datasets are open-sourced at https://github.com/rorizzz/YOLO-Stutter

arxiv情報

著者 Xuanru Zhou,Anshul Kashyap,Steve Li,Ayati Sharma,Brittany Morin,David Baquirin,Jet Vonk,Zoe Ezzes,Zachary Miller,Maria Luisa Gorno Tempini,Jiachen Lian,Gopala Krishna Anumanchipalli
発行日 2024-09-09 08:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク