DeepFace-Attention: Multimodal Face Biometrics for Attention Estimation with Application to e-Learning

要約

この研究では、ウェブカメラのビデオに適用された一連の顔分析技術を使用して、注意レベル (認知負荷) を推定する革新的な方法を紹介します。
私たちの手法は、特に e ラーニング アプリケーションで有効であるため、e ラーニング環境で取得された公共のマルチモーダル データベースである mEBAL2 データベースでアプローチをトレーニング、評価、比較しました。
mEBAL2 は、8 つの異なるタスクを実行した 60 人のユーザーからのデータで構成されています。
これらのタスクは難易度が異なるため、認知負荷の変化につながりました。
私たちのアプローチは、最先端の顔分析テクノロジーを応用して、ユーザーの認知負荷を注意力の高低という形で定量化します。
認知負荷に関連するいくつかの行動信号と生理学的プロセス (特に、まばたき、心拍数、顔の動作単位、頭の姿勢など) が使用されます。
さらに、特に、どの個々の特徴がより良い結果を得るのか、最も効率的な組み合わせを理解するための研究を実施し、局所的および全体的な特徴を調査し、一時的な時間間隔が注意レベルの推定にどのような影響を与えるかなどを理解します。
グローバルな顔の特徴は、特に時間ウィンドウが増加するにつれて、スコアレベルの融合を使用するマルチモーダル システムにより適していることがわかりました。
一方、局所的な特徴は、スコアレベルの融合アプローチを使用したニューラル ネットワーク トレーニングによる融合により適しています。
私たちの手法は、公開されている mEBAL2 ベンチマークを使用した既存の最先端の精度を上回ります。

要約(オリジナル)

This work introduces an innovative method for estimating attention levels (cognitive load) using an ensemble of facial analysis techniques applied to webcam videos. Our method is particularly useful, among others, in e-learning applications, so we trained, evaluated, and compared our approach on the mEBAL2 database, a public multi-modal database acquired in an e-learning environment. mEBAL2 comprises data from 60 users who performed 8 different tasks. These tasks varied in difficulty, leading to changes in their cognitive loads. Our approach adapts state-of-the-art facial analysis technologies to quantify the users’ cognitive load in the form of high or low attention. Several behavioral signals and physiological processes related to the cognitive load are used, such as eyeblink, heart rate, facial action units, and head pose, among others. Furthermore, we conduct a study to understand which individual features obtain better results, the most efficient combinations, explore local and global features, and how temporary time intervals affect attention level estimation, among other aspects. We find that global facial features are more appropriate for multimodal systems using score-level fusion, particularly as the temporal window increases. On the other hand, local features are more suitable for fusion through neural network training with score-level fusion approaches. Our method outperforms existing state-of-the-art accuracies using the public mEBAL2 benchmark.

arxiv情報

著者 Roberto Daza,Luis F. Gomez,Julian Fierrez,Aythami Morales,Ruben Tolosana,Javier Ortega-Garcia
発行日 2024-08-14 14:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク