MC-ViViT: Multi-branch Classifier-ViViT to detect Mild Cognitive Impairment in older adults using facial videos

要約

畳み込みニューラル ネットワーク (CNN) を含む深層機械学習モデルは、医療画像、アンケート、ビデオを使用した軽度認知障害 (MCI) の検出に成功しています。
この論文では、顔の特徴を分析することによって MCI と正常な認知を持つ患者を区別するための新しいマルチブランチ分類器 – ビデオ ビジョン トランスフォーマー (MC-ViViT) モデルを提案します。
このデータは、頻繁にビデオチャットを提供することで認知機能を改善することを目的とした行動介入試験である I-CONECT から得られたものです。
MC-ViViT は、1 つのブランチ内のビデオの時空間特徴を抽出し、MC モジュールによって表現を拡張します。
I-CONECT データセットは、Hard-Easy サンプルと Positive-Negative サンプルを含むデータセットの不均衡が原因で、MC-ViViT のパフォーマンスを妨げるため、困難です。
不均衡問題に対処するために、Focal 損失と AD-CORRE 損失を組み合わせた、Hard-Easy および Positive-Negative サンプル (HP 損失) の損失関数を提案します。
I-CONECT データセットでの実験結果は、一部のインタビュー ビデオで 90.63% の高精度で MCI を予測する MC-ViViT の大きな可能性を示しています。

要約(オリジナル)

Deep machine learning models including Convolutional Neural Networks (CNN) have been successful in the detection of Mild Cognitive Impairment (MCI) using medical images, questionnaires, and videos. This paper proposes a novel Multi-branch Classifier-Video Vision Transformer (MC-ViViT) model to distinguish MCI from those with normal cognition by analyzing facial features. The data comes from the I-CONECT, a behavioral intervention trial aimed at improving cognitive function by providing frequent video chats. MC-ViViT extracts spatiotemporal features of videos in one branch and augments representations by the MC module. The I-CONECT dataset is challenging as the dataset is imbalanced containing Hard-Easy and Positive-Negative samples, which impedes the performance of MC-ViViT. We propose a loss function for Hard-Easy and Positive-Negative Samples (HP Loss) by combining Focal loss and AD-CORRE loss to address the imbalanced problem. Our experimental results on the I-CONECT dataset show the great potential of MC-ViViT in predicting MCI with a high accuracy of 90.63% accuracy on some of the interview videos.

arxiv情報

著者 Jian Sun,Hiroko H. Dodge,Mohammad H. Mahoor
発行日 2024-01-05 18:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク