Vision-Based Activity Recognition in Children with Autism-Related Behaviors

要約

機械学習と非接触型センサーの進歩により、ヘルスケア環境における人間の複雑な行動を理解することが可能になりました。特に、自閉症スペクトラム障害(ASD)などの神経発達状態を包括的に分析できるように、いくつかのディープラーニングシステムが導入されています。この症状は、初期の発達段階から子供に影響を与え、診断は子供の行動を観察し、行動の手がかりを検出することに全面的に依存しています。しかし、診断には長期間の行動観察が必要なため時間がかかり、また、専門家の数も少ないという問題がある。我々は、領域ベースのコンピュータビジョンシステムが、臨床医や親が子供の行動を分析するのに役立つ効果を実証する。そのために、制御されていない環境で撮影された子供の動画(例えば、民生用カメラで収集した様々な環境の動画)を用いて、自閉症関連の行動を分析するためのデータセットを採用し、拡張する。データは、背景ノイズの影響を低減するために、映像中の対象児童を検出する前処理を行う。時間畳み込みモデルの有効性に着目し、映像フレームから行動特徴を抽出し、映像フレーム間の関係を分析することで自閉症関連行動を分類できる軽量モデルと従来モデルの両方を提案する。特徴抽出と学習戦略に関する広範な評価を通じて、膨張3次元畳み込みネットワークと多段時間畳み込みネットワークで最高の性能を達成し、3つの自閉症関連行動の分類で0.83重み付きF1スコアを達成し、既存の手法を凌駕することを証明する。また、ESNetのバックボーンを利用した軽量なソリューションも提案し、0.71のF1スコアを達成し、組み込みシステムへの展開を可能にしています。

要約(オリジナル)

Advances in machine learning and contactless sensors have enabled the understanding complex human behaviors in a healthcare setting. In particular, several deep learning systems have been introduced to enable comprehensive analysis of neuro-developmental conditions such as Autism Spectrum Disorder (ASD). This condition affects children from their early developmental stages onwards, and diagnosis relies entirely on observing the child’s behavior and detecting behavioral cues. However, the diagnosis process is time-consuming as it requires long-term behavior observation, and the scarce availability of specialists. We demonstrate the effect of a region-based computer vision system to help clinicians and parents analyze a child’s behavior. For this purpose, we adopt and enhance a dataset for analyzing autism-related actions using videos of children captured in uncontrolled environments (e.g. videos collected with consumer-grade cameras, in varied environments). The data is pre-processed by detecting the target child in the video to reduce the impact of background noise. Motivated by the effectiveness of temporal convolutional models, we propose both light-weight and conventional models capable of extracting action features from video frames and classifying autism-related behaviors by analyzing the relationships between frames in a video. Through extensive evaluations on the feature extraction and learning strategies, we demonstrate that the best performance is achieved with an Inflated 3D Convnet and Multi-Stage Temporal Convolutional Networks, achieving a 0.83 Weighted F1-score for classification of the three autism-related actions, outperforming existing methods. We also propose a light-weight solution by employing the ESNet backbone within the same system, achieving competitive results of 0.71 Weighted F1-score, and enabling potential deployment on embedded systems.

arxiv情報

著者 Pengbo Wei,David Ahmedt-Aristizabal,Harshala Gammulle,Simon Denman,Mohammad Ali Armin
発行日 2022-08-08 15:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク