要約
この研究では、新しいマルチスペクトル データベースと、RGB および近赤外線 (NIR) の個々の画像における瞬き検出のための新しいアプローチを導入します。
私たちが提供したデータセット (mEBAL2、マルチモーダルな瞬きと注意レベルの推定、バージョン 2) は、既存の最大の瞬目データベースであり、瞬き検出および関連アプリケーション (注意レベルの推定やプレゼンテーション攻撃など) のためのデータ駆動型マルチスペクトル アプローチを改善する素晴らしい機会を表しています。
顔の生体認証での検出)。
mEBAL2 には、さまざまな難易度の多数の e ラーニング タスクを実施したり、edX MOOC プラットフォームを通じて HTML 開始に関する実際のコースを受講したりしながら、180 人の異なる学生からの 21,100 枚の画像シーケンス (合計 200 万枚以上のラベル付き画像) が含まれています。
mEBAL2 は、タスクの実行中に顔のジェスチャーをキャプチャする 2 台の近赤外線 (NIR) カメラと 1 台の RGB カメラを含む複数のセンサーを使用し、ユーザーの認知活動や瞬きイベントを取得する脳波 (EEG) バンドも使用します。
さらに、この研究では、mEBAL2 でのまばたき検出のベンチマークとして、最大 97% のパフォーマンスを実現する畳み込みニューラル ネットワーク アーキテクチャを提案しています。
既存のまばたき検出器のパフォーマンスを向上させるために、RGB スペクトル、NIR スペクトル、およびその両方の組み合わせを使用してさまざまなトレーニング方法が実装されています。
トレーニング中に NIR 画像と RGB 画像を組み合わせると、RGB まばたき検出器 (つまり、RGB 画像のみに基づく検出) のパフォーマンスが向上することを実証します。
最後に、提案されたまばたき検出器の一般化能力が、HUST-LEBW データセットのような、よりワイルドでより困難な環境で検証され、まばたき検出のための新世代のデータ駆動型アプローチをトレーニングするための mEBAL2 の有用性が示されます。
要約(オリジナル)
This work introduces a new multispectral database and novel approaches for eyeblink detection in RGB and Near-Infrared (NIR) individual images. Our contributed dataset (mEBAL2, multimodal Eye Blink and Attention Level estimation, Version 2) is the largest existing eyeblink database, representing a great opportunity to improve data-driven multispectral approaches for blink detection and related applications (e.g., attention level estimation and presentation attack detection in face biometrics). mEBAL2 includes 21,100 image sequences from 180 different students (more than 2 million labeled images in total) while conducting a number of e-learning tasks of varying difficulty or taking a real course on HTML initiation through the edX MOOC platform. mEBAL2 uses multiple sensors, including two Near-Infrared (NIR) and one RGB camera to capture facial gestures during the execution of the tasks, as well as an Electroencephalogram (EEG) band to get the cognitive activity of the user and blinking events. Furthermore, this work proposes a Convolutional Neural Network architecture as benchmark for blink detection on mEBAL2 with performances up to 97%. Different training methodologies are implemented using the RGB spectrum, NIR spectrum, and the combination of both to enhance the performance on existing eyeblink detectors. We demonstrate that combining NIR and RGB images during training improves the performance of RGB eyeblink detectors (i.e., detection based only on a RGB image). Finally, the generalization capacity of the proposed eyeblink detectors is validated in wilder and more challenging environments like the HUST-LEBW dataset to show the usefulness of mEBAL2 to train a new generation of data-driven approaches for eyeblink detection.
arxiv情報
著者 | Roberto Daza,Aythami Morales,Julian Fierrez,Ruben Tolosana,Ruben Vera-Rodriguez |
発行日 | 2024-04-26 11:15:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google