Automatic Identification of Alzheimer’s Disease using Lexical Features extracted from Language Samples


目的: この研究には 2 つの目標があります。
第一に、この辞書のさまざまな側面に対するアルツハイマー病 (AD) 型認知症の影響についての理解を深めることを目的としています。
第 2 に、辞書のこのような側面を機械学習分類器の機能として使用すると、AD 患者が作成した言語サンプルを自動的に識別する際に最先端のパフォーマンスを達成できることを実証することを目的としています。
方法: データは、DementiaBank コーパスの一部である ADDreSS チャレンジから取得されます。
使用されたデータセットは、トレーニング部分の 54 人の被験者とテスト部分の 24 人の被験者によって作成された、Cookie 盗難の画像の説明のトランスクリプトで構成されています。
ナラティブ サンプルの数は、トレーニング セットでは 108 個、テスト セットでは 48 個です。
まず、データセットのトレーニング部分とテスト部分の両方を使用して、選択した 99 個の語彙特徴に対する AD の影響が研究されます。
物語的スピーチに基づいて構築されたモデルの一般化を評価するために、2 人の英国人作家、アイリス マードックとアガサ クリスティの文書データと、ロナルド レーガン元大統領によるいくつかのスピーチの書き起こしを使用して 2 つの一般化テストが実施されました。
結果: 語彙特徴のみを使用した最先端の分類、F1 および精度は、AD 患者が作成した言語サンプルを健康な対照被験者が作成した言語サンプルから分類する際に 91% 以上の精度を達成しました。
これは、辞書処理に対する AD の大きな影響を裏付けています。


Objective: this study has a twofold goal. First, it aims to improve the understanding of the impact of Dementia of type Alzheimer’s Disease (AD) on different aspects of the lexicon. Second, it aims to demonstrate that such aspects of the lexicon, when used as features of a machine learning classifier, can help achieve state-of-the-art performance in automatically identifying language samples produced by patients with AD. Methods: data is derived from the ADDreSS challenge, which is a part of the DementiaBank corpus. The used dataset consists of transcripts of Cookie Theft picture descriptions, produced by 54 subjects in the training part and 24 subjects in the test part. The number of narrative samples is 108 in the training set and 48 in the test set. First, the impact of AD on 99 selected lexical features is studied using both the training and testing parts of the dataset. Then some machine learning experiments were conducted on the task of classifying transcribed speech samples with text samples that were produced by people with AD from those produced by normal subjects. Several experiments were conducted to compare the different areas of lexical complexity, identify the subset of features that help achieve optimal performance, and study the impact of the size of the input on the classification. To evaluate the generalization of the models built on narrative speech, two generalization tests were conducted using written data from two British authors, Iris Murdoch and Agatha Christie, and the transcription of some speeches by former President Ronald Reagan. Results: using lexical features only, state-of-the-art classification, F1 and accuracies, of over 91% were achieved in categorizing language samples produced by individuals with AD from the ones produced by healthy control subjects. This confirms the substantial impact of AD on lexicon processing.


著者 M. Zakaria Kurdi
発行日 2023-07-16 15:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク