Automatic Scoring of Cognition Drawings: Assessing the Quality of Machine-Based Scores Against a Gold Standard

要約

図形描画は、認知症スクリーニングプロトコルの一部としてよく使用されます。
ヨーロッパにおける健康老化と退職に関する調査(SHARE)は、認知に関する質問票モジュールの一部として、アデンブルックの認知検査 III からの 3 つの描画テストを採用しました。
通常、図面は訓練を受けた臨床医によって採点されますが、SHARE では、面接を実施する対面の面接官を使用して、フィールドワーク中に図面を採点します。
面接官は臨床訓練を受けていないために採点の一貫性が低く、間違いを犯す可能性が高くなるため、これはデータ品質にリスクをもたらす可能性があります。
したがって、この論文では最初の概念実証を報告し、深層学習を使用した自動スコアリングの実現可能性を評価します。
私たちは、ドイツの SHARE パネルの第 8 ウェーブからの約 2,000 枚の図面と、対応する面接官のスコア、および独自に開発した「ゴールド スタンダード」スコアを使用して、いくつかの異なる畳み込みニューラル ネットワーク (CNN) モデルをトレーニングします。
結果は、このアプローチが実際に実現可能であることを示唆しています。
面接官のスコアに基づいてトレーニングした場合と比較して、ゴールド スタンダード データに基づいてトレーニングされたモデルは、予測精度が約 10 パーセント ポイント向上します。
最もパフォーマンスの高いモデルである ConvNeXt Base は、約 85% の精度を達成しています。これは、インタビュアーの精度より 5 ポイント高いです。
これは有望な結果ではありますが、モデルはまだ部分的に正しい図面を採点するのに苦労しており、これは面接官にとっても問題です。
これは、運用レベルの予測精度を達成するには、より多くのより優れたトレーニング データが必要であることを示唆しています。
したがって、トレーニング サンプルの質と量を向上させるために考えられる次のステップについて説明します。

要約(オリジナル)

Figure drawing is often used as part of dementia screening protocols. The Survey of Health Aging and Retirement in Europe (SHARE) has adopted three drawing tests from Addenbrooke’s Cognitive Examination III as part of its questionnaire module on cognition. While the drawings are usually scored by trained clinicians, SHARE uses the face-to-face interviewers who conduct the interviews to score the drawings during fieldwork. This may pose a risk to data quality, as interviewers may be less consistent in their scoring and more likely to make errors due to their lack of clinical training. This paper therefore reports a first proof of concept and evaluates the feasibility of automating scoring using deep learning. We train several different convolutional neural network (CNN) models using about 2,000 drawings from the 8th wave of the SHARE panel in Germany and the corresponding interviewer scores, as well as self-developed ‘gold standard’ scores. The results suggest that this approach is indeed feasible. Compared to training on interviewer scores, models trained on the gold standard data improve prediction accuracy by about 10 percentage points. The best performing model, ConvNeXt Base, achieves an accuracy of about 85%, which is 5 percentage points higher than the accuracy of the interviewers. While this is a promising result, the models still struggle to score partially correct drawings, which are also problematic for interviewers. This suggests that more and better training data is needed to achieve production-level prediction accuracy. We therefore discuss possible next steps to improve the quality and quantity of training examples.

arxiv情報

著者 Arne Bethmann,Marina Aoki,Charlotte Hunsicker,Claudia Weileder
発行日 2023-12-29 13:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.AP, stat.ME パーマリンク