Modality-Order Matters! A Novel Hierarchical Feature Fusion Method for CoSAm: A Code-Switched Autism Corpus

要約

自閉症スペクトラム障害(ASD)は複雑な神経発達上の課題であり、社会的相互作用、コミュニケーション、さまざまな状況での反復的な行動の表現にさまざまな困難をもたらします。
この有病率の増加は、公衆衛生上の主要な懸念事項としての ASD の重要性と、この障害とその早期発見方法についての理解を進めるための包括的な研究活動の必要性を浮き彫りにしています。
この研究では、コード交換音声(英語とヒンディー語)の分析を通じて、子供のASDの早期発見を強化することを目的とした、新しい階層的特徴融合方法を紹介します。
この研究では、高度な音声処理技術を採用し、Transformer Encoder を使用して音響、パラ言語、および言語情報を統合します。
この革新的な融合戦略は、早期かつ正確な ASD 識別に不可欠な分類の堅牢性と精度を向上させるように設計されています。
この方法論には、ASD と診断された子供および対応する対照群からコード交換音声コーパス CoSAm を収集することが含まれます。
データセットは、ASD と診断された 30 人の子供からの 61 件の音声録音と、3 歳から 13 歳までの定型発達の子供からの 31 件の音声録音で構成され、合計 159.75 分の音声録音になります。
特徴分析は、MFCC と広範な統計的属性に焦点を当てて、音声パターンの変動性と複雑さを捕捉します。
最高のモデル パフォーマンスは、最初に音響特徴と言語特徴の組み合わせを使用し、続いて階層的に準言語特徴を組み合わせた階層融合手法を使用して 98.75% の精度で達成されます。

要約(オリジナル)

Autism Spectrum Disorder (ASD) is a complex neuro-developmental challenge, presenting a spectrum of difficulties in social interaction, communication, and the expression of repetitive behaviors in different situations. This increasing prevalence underscores the importance of ASD as a major public health concern and the need for comprehensive research initiatives to advance our understanding of the disorder and its early detection methods. This study introduces a novel hierarchical feature fusion method aimed at enhancing the early detection of ASD in children through the analysis of code-switched speech (English and Hindi). Employing advanced audio processing techniques, the research integrates acoustic, paralinguistic, and linguistic information using Transformer Encoders. This innovative fusion strategy is designed to improve classification robustness and accuracy, crucial for early and precise ASD identification. The methodology involves collecting a code-switched speech corpus, CoSAm, from children diagnosed with ASD and a matched control group. The dataset comprises 61 voice recordings from 30 children diagnosed with ASD and 31 from neurotypical children, aged between 3 and 13 years, resulting in a total of 159.75 minutes of voice recordings. The feature analysis focuses on MFCCs and extensive statistical attributes to capture speech pattern variability and complexity. The best model performance is achieved using a hierarchical fusion technique with an accuracy of 98.75% using a combination of acoustic and linguistic features first, followed by paralinguistic features in a hierarchical manner.

arxiv情報

著者 Mohd Mujtaba Akhtar,Girish,Muskaan Singh,Orchid Chetia Phukan
発行日 2024-07-19 14:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク