要約
毎年、何百万人もの人々が、神経筋疾患、脳卒中、外傷、頭頸部がんの手術(例:喉頭切除術)や治療(例:音声調音器官への放射線療法の毒性)などの原因により、明瞭に話す能力を失っています。
効果的なコミュニケーションは日常生活に不可欠であり、話す能力を失うと孤立、うつ病、不安、および多くの有害な後遺症につながります。
非侵襲性表面筋電図検査 (sEMG) は、これらの人々の音声出力を回復する可能性を示しています。
目標は、人々が黙って音声を発するときに複数の調音部位から sEMG 信号を収集し、その信号をデコードして流暢で自然なコミュニケーションを可能にすることです。
現在、音声の明瞭さに関連する口腔顔面神経筋信号の多くの基本的な特性は未解決のままです。
これらには、1) 口腔顔面の sEMG 信号のデータ構造、2) 個人間の sEMG の信号分布のシフト、3) 無言発話中の英語の音声空間全体に及ぶ sEMG 信号の能力、および 4) に関する質問が含まれます。
非侵襲性sEMGベースのサイレントスピーチインターフェースの一般化機能。
私たちは、健康な人間を対象とした一連の実験を通じてこれらの疑問に取り組みます。
sEMG 信号がグラフ データ構造を反映していること、および信号分布のシフトが基底の変化によって与えられることを示します。
さらに、英語の音声空間全体にわたる無声調音は、少ないデータで訓練できる小さなニューラル ネットワークを使用してデコードできること、およびそのようなアーキテクチャが個人間でうまく機能することを示します。
透明性と再現性を確保するために、この研究で使用されるすべてのデータとコードをオープンソースにします。
要約(オリジナル)
Each year, millions of individuals lose the ability to speak intelligibly due to causes such as neuromuscular disease, stroke, trauma, and head/neck cancer surgery (e.g. laryngectomy) or treatment (e.g. radiotherapy toxicity to the speech articulators). Effective communication is crucial for daily activities, and losing the ability to speak leads to isolation, depression, anxiety, and a host of detrimental sequelae. Noninvasive surface electromyography (sEMG) has shown promise to restore speech output in these individuals. The goal is to collect sEMG signals from multiple articulatory sites as people silently produce speech and then decode the signals to enable fluent and natural communication. Currently, many fundamental properties of orofacial neuromuscular signals relating to speech articulation remain unanswered. They include questions relating to 1) the data structure of the orofacial sEMG signals, 2)the signal distribution shift of sEMG across individuals, 3) ability of sEMG signals to span the entire English language phonetic space during silent speech articulations, and 4) the generalization capability of non-invasive sEMG based silent speech interfaces. We address these questions through a series of experiments involving healthy human subjects. We show that sEMG signals evince graph data structure and that the signal distribution shift is given by a change of basis. Furthermore, we show that silently voiced articulations spanning the entire English language phonetic space can be decoded using small neural networks which can be trained with little data and that such architectures work well across individuals. To ensure transparency and reproducibility, we open-source all the data and codes used in this study.
arxiv情報
著者 | Harshavardhana T. Gowda,Zachary D. McNaughton,Lee M. Miller |
発行日 | 2024-11-15 02:33:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google