VisioPhysioENet: Multimodal Engagement Detection using Visual and Physiological Signals

要約

本論文では、視覚的および生理学的信号を活用して学習者の学習意欲を検出する、新しいマルチモーダルシステムであるVisioPhysioENetを紹介する。このシステムでは、視覚的特徴と生理学的特徴の両方を抽出するために、2つのレベルのアプローチを採用している。視覚的特徴の抽出には、顔のランドマークを検出するためにDlibが使用され、OpenCVが追加の推定を行います。Dlib上に構築された顔認識ライブラリは、生理学的信号抽出のために特別に顔の関心領域を特定するために使用されます。次に、心血管系の活動を評価するために、平面直交トスキン法を用いて生理的信号を抽出する。これらの特徴は、高度な機械学習分類器を用いて統合され、様々なレベルの関与の検出を強化します。我々はDAiSEEデータセットでVisioPhysioENetを徹底的にテストした。その結果、63.09%の精度を達成した。これは、多くの既存の手法と比較して、異なるエンゲージメントのレベルをより良く識別できることを示している。また、生理学的特徴と視覚的特徴の両方を使用する他の唯一のモデルよりも8.6%優れた結果を示した。

要約(オリジナル)

This paper presents VisioPhysioENet, a novel multimodal system that leverages visual and physiological signals to detect learner engagement. It employs a two-level approach for extracting both visual and physiological features. For visual feature extraction, Dlib is used to detect facial landmarks, while OpenCV provides additional estimations. The face recognition library, built on Dlib, is used to identify the facial region of interest specifically for physiological signal extraction. Physiological signals are then extracted using the plane-orthogonal-toskin method to assess cardiovascular activity. These features are integrated using advanced machine learning classifiers, enhancing the detection of various levels of engagement. We thoroughly tested VisioPhysioENet on the DAiSEE dataset. It achieved an accuracy of 63.09%. This shows it can better identify different levels of engagement compared to many existing methods. It performed 8.6% better than the only other model that uses both physiological and visual features.

arxiv情報

著者 Alakhsimar Singh,Nischay Verma,Kanav Goyal,Amritpal Singh,Puneet Kumar,Xiaobai Li
発行日 2025-02-03 07:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク