要約
自閉症スペクトラム障害 (ASD) の早期診断には、子供の社会的行動を観察し、分析することが重要です。
この研究は、コンピューター ビジョン技術と大規模言語モデル (LLM) を使用して ASD を自動的に検出することに焦点を当てています。
既存の方法は通常、教師あり学習に依存しています。
しかし、ASD 診断データセットの不足と診断結果の解釈可能性の欠如により、ASD の臨床応用は大幅に制限されています。
これらの課題に対処するために、スクリプト中心の動作理解に基づく新しい教師なしアプローチを導入します。
当社のパイプラインは、ビデオ コンテンツをキャラクターの動作を記述するスクリプトに変換し、大規模な言語モデルの一般化可能性を活用して、ゼロショットまたは少数ショットの方法で ASD を検出します。
具体的には、マルチモーダル動作データのテキスト化のためのスクリプト転写モジュールと、LLM をブリッジするためのドメイン プロンプト モジュールを提案します。
私たちの方法は、平均月齢 24 か月の子供の ASD を診断する精度 92.00% を達成し、教師あり学習法のパフォーマンスを 3.58% 絶対に上回っています。
広範な実験により、私たちのアプローチの有効性が確認され、LLMを通じてASD研究を前進させる可能性が示唆されています。
要約(オリジナル)
Observing and analyzing children’s social behaviors is crucial for the early diagnosis of Autism Spectrum Disorders (ASD). This work focuses on automatically detecting ASD using computer vision techniques and large language models (LLMs). Existing methods typically rely on supervised learning. However, the scarcity of ASD diagnostic datasets and the lack of interpretability in diagnostic results significantly limits its clinical application. To address these challenges, we introduce a novel unsupervised approach based on script-centric behavior understanding. Our pipeline converts video content into scripts that describe the behavior of characters, leveraging the generalizability of large language models to detect ASD in a zero-shot or few-shot manner. Specifically, we propose a scripts transcription module for multimodal behavior data textualization and a domain prompts module to bridge LLMs. Our method achieves an accuracy of 92.00\% in diagnosing ASD in children with an average age of 24 months, surpassing the performance of supervised learning methods by 3.58\% absolutely. Extensive experiments confirm the effectiveness of our approach and suggest its potential for advancing ASD research through LLMs.
arxiv情報
著者 | Wenxing Liu,Yueran Pan,Ming Li |
発行日 | 2024-11-14 13:07:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google