Real-time Multi-person Eyeblink Detection in the Wild for Untrimmed Video


現実のリアルタイムのまばたき検出は、疲労検出、顔のなりすまし防止、感情分析などに広く役立ちます。既存の研究活動は一般に、トリミングされたビデオに対する 1 人のケースに焦点を当てています。
特に、8748 のまばたきイベントを含む 686 のトリミングされていないビデオを含む、MPEblink と呼ばれる大規模なデータセットが複数人の条件下で提案されています。
既存の対応するものとは異なり、私たちの提案は、エンドツーエンドの学習能力を備えた 1 段階の時空間的な方法で実行されます。
このパラダイムには 2 つの主な利点があります: (1) 共同最適化とインタラクションにより、顔のグローバル コンテキスト (頭の姿勢や照明条件など) を介してまばたきの特徴を容易にすることができ、(2) これらのサブタスクに逐次的にではなく並行して対処できます。
MPEblink の実験では、トリミングされていないビデオに対するリアルタイムの複数人のまばたき検出の本質的な課題を検証します。


Real-time eyeblink detection in the wild can widely serve for fatigue detection, face anti-spoofing, emotion analysis, etc. The existing research efforts generally focus on single-person cases towards trimmed video. However, multi-person scenario within untrimmed videos is also important for practical applications, which has not been well concerned yet. To address this, we shed light on this research field for the first time with essential contributions on dataset, theory, and practices. In particular, a large-scale dataset termed MPEblink that involves 686 untrimmed videos with 8748 eyeblink events is proposed under multi-person conditions. The samples are captured from unconstrained films to reveal ‘in the wild’ characteristics. Meanwhile, a real-time multi-person eyeblink detection method is also proposed. Being different from the existing counterparts, our proposition runs in a one-stage spatio-temporal way with end-to-end learning capacity. Specifically, it simultaneously addresses the sub-tasks of face detection, face tracking, and human instance-level eyeblink detection. This paradigm holds 2 main advantages: (1) eyeblink features can be facilitated via the face’s global context (e.g., head pose and illumination condition) with joint optimization and interaction, and (2) addressing these sub-tasks in parallel instead of sequential manner can save time remarkably to meet the real-time running requirement. Experiments on MPEblink verify the essential challenges of real-time multi-person eyeblink detection in the wild for untrimmed video. Our method also outperforms existing approaches by large margins and with a high inference speed.


著者 Wenzheng Zeng,Yang Xiao,Sicheng Wei,Jinfang Gan,Xintao Zhang,Zhiguo Cao,Zhiwen Fang,Joey Tianyi Zhou
発行日 2023-08-21 14:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク