要約
自閉症スペクトラム障害(ASD)は、社会的コミュニケーション、反復行動、および感覚処理の課題を特徴とする神経発達条件です。
ASDの重要な研究分野の1つは、治療中の子供の行動の変化を経時的に評価することです。
この目的を備えた標準的なプロトコルはBOSCCです。これには、事前に定義された一連のアクティビティを実行する子供と臨床医との間の二項相互作用が含まれます。
これらの相互作用における子どもの行動を理解することの基本的な側面は、特に誰が話すのかを特定する自動音声理解です。
この分野での従来のアプローチは、観客の観点から記録された音声サンプルに大きく依存しており、エゴセントリックな音声モデリングに関する研究は限られています。
この研究では、ウェアラブルセンサーを使用してエゴセントリックな観点からBOSCCインタビューで音声サンプリングを実行する実験を設計し、トレーニング前のEGO4D音声サンプルを探索して、ダイアジック相互作用における子どもと講演者の分類を強化します。
私たちの調査結果は、スピーカーの分類精度を向上させるためのエゴセントリックな音声コレクションと事前トレーニングの可能性を強調しています。
要約(オリジナル)
Autism spectrum disorder (ASD) is a neurodevelopmental condition characterized by challenges in social communication, repetitive behavior, and sensory processing. One important research area in ASD is evaluating children’s behavioral changes over time during treatment. The standard protocol with this objective is BOSCC, which involves dyadic interactions between a child and clinicians performing a pre-defined set of activities. A fundamental aspect of understanding children’s behavior in these interactions is automatic speech understanding, particularly identifying who speaks and when. Conventional approaches in this area heavily rely on speech samples recorded from a spectator perspective, and there is limited research on egocentric speech modeling. In this study, we design an experiment to perform speech sampling in BOSCC interviews from an egocentric perspective using wearable sensors and explore pre-training Ego4D speech samples to enhance child-adult speaker classification in dyadic interactions. Our findings highlight the potential of egocentric speech collection and pre-training to improve speaker classification accuracy.
arxiv情報
著者 | Tiantian Feng,Anfeng Xu,Xuan Shi,Somer Bishop,Shrikanth Narayanan |
発行日 | 2025-06-02 13:51:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google