Real-time Multi-person Eyeblink Detection in the Wild for Untrimmed Video

要約

現実のリアルタイムのまばたき検出は、疲労検出、顔のなりすまし防止、感情分析などに広く役立ちます。既存の研究活動は一般に、トリミングされたビデオに対する 1 人のケースに焦点を当てています。
ただし、トリミングされていないビデオ内の複数人のシナリオも実用化には重要ですが、これについてはまだ十分に考慮されていません。
これに対処するために、私たちはデータセット、理論、実践に関する重要な貢献によって、この研究分野に初めて光を当てました。
特に、8748 のまばたきイベントを含む 686 のトリミングされていないビデオを含む、MPEblink と呼ばれる大規模なデータセットが複数人の条件下で提案されています。
サンプルは、「野生の」特性を明らかにするために、拘束されていないフィルムからキャプチャされています。
一方、リアルタイムの複数人のまばたき検出方法も提案されている。
既存の対応するものとは異なり、私たちの提案は、エンドツーエンドの学習能力を備えた 1 段階の時空間的な方法で実行されます。
具体的には、顔検出、顔追跡、および人間インスタンスレベルのまばたき検出のサブタスクに同時に対処します。
このパラダイムには 2 つの主な利点があります: (1) 共同最適化とインタラクションにより、顔のグローバル コンテキスト (頭の姿勢や照明条件など) を介してまばたきの特徴を容易にすることができ、(2) これらのサブタスクに逐次的にではなく並行して対処できます。
リアルタイム実行要件を満たすために時間を大幅に節約できます。
MPEblink の実験では、トリミングされていないビデオに対するリアルタイムの複数人のまばたき検出の本質的な課題を検証します。
また、私たちの方法は、既存のアプローチを大幅に上回り、高い推論速度で優れています。

要約(オリジナル)

Real-time eyeblink detection in the wild can widely serve for fatigue detection, face anti-spoofing, emotion analysis, etc. The existing research efforts generally focus on single-person cases towards trimmed video. However, multi-person scenario within untrimmed videos is also important for practical applications, which has not been well concerned yet. To address this, we shed light on this research field for the first time with essential contributions on dataset, theory, and practices. In particular, a large-scale dataset termed MPEblink that involves 686 untrimmed videos with 8748 eyeblink events is proposed under multi-person conditions. The samples are captured from unconstrained films to reveal ‘in the wild’ characteristics. Meanwhile, a real-time multi-person eyeblink detection method is also proposed. Being different from the existing counterparts, our proposition runs in a one-stage spatio-temporal way with end-to-end learning capacity. Specifically, it simultaneously addresses the sub-tasks of face detection, face tracking, and human instance-level eyeblink detection. This paradigm holds 2 main advantages: (1) eyeblink features can be facilitated via the face’s global context (e.g., head pose and illumination condition) with joint optimization and interaction, and (2) addressing these sub-tasks in parallel instead of sequential manner can save time remarkably to meet the real-time running requirement. Experiments on MPEblink verify the essential challenges of real-time multi-person eyeblink detection in the wild for untrimmed video. Our method also outperforms existing approaches by large margins and with a high inference speed.

arxiv情報

著者 Wenzheng Zeng,Yang Xiao,Sicheng Wei,Jinfang Gan,Xintao Zhang,Zhiguo Cao,Zhiwen Fang,Joey Tianyi Zhou
発行日 2023-08-21 14:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク