In the Blink of an Eye: Event-based Emotion Recognition

要約

ウェアラブル単眼感情認識デバイスと、照明条件の変化に強い、感情の部分的な観察から感情を認識するリアルタイム アプローチを紹介します。
私たちの手法の中心となるのは、生物からインスピレーションを得たイベントベースのカメラセットアップと、新しく設計された軽量のSpiking Eye Emotion Network (SEEN)です。
従来のカメラと比較して、イベントベースのカメラは、より高いダイナミック レンジ (80 dB に対して最大 140 dB) とより高い時間解像度を提供します。
したがって、捕捉されたイベントは、困難な照明条件下でも豊富な時間的手がかりをエンコードできます。
ただし、これらのイベントにはテクスチャ情報が欠如しているため、時間情報を効果的にデコードする際に問題が生じます。
SEEN は 2 つの異なる観点からこの問題に取り組んでいます。
まず、畳み込みスパイキング層を採用して、関連する時間情報をデコードするスパイキング ニューラル ネットワークの機能を利用します。
第 2 に、SEEN は、対応する強度フレームから重要な空間キューを抽出する方法を学習し、新しいウェイト コピー スキームを活用して、トレーニングと推論中に畳み込みスパイク層に空間的注意を伝えます。
私たちは、特別に収集された単眼イベントベースの感情 (SEE) データセットに対するアプローチの有効性を広範囲に検証し、実証しています。
私たちの知る限り、私たちの方法は、イベントベースのカメラとスパイキング ニューラル ネットワークを活用した初の目ベースの感情認識方法です。

要約(オリジナル)

We introduce a wearable single-eye emotion recognition device and a real-time approach to recognizing emotions from partial observations of an emotion that is robust to changes in lighting conditions. At the heart of our method is a bio-inspired event-based camera setup and a newly designed lightweight Spiking Eye Emotion Network (SEEN). Compared to conventional cameras, event-based cameras offer a higher dynamic range (up to 140 dB vs. 80 dB) and a higher temporal resolution. Thus, the captured events can encode rich temporal cues under challenging lighting conditions. However, these events lack texture information, posing problems in decoding temporal information effectively. SEEN tackles this issue from two different perspectives. First, we adopt convolutional spiking layers to take advantage of the spiking neural network’s ability to decode pertinent temporal information. Second, SEEN learns to extract essential spatial cues from corresponding intensity frames and leverages a novel weight-copy scheme to convey spatial attention to the convolutional spiking layers during training and inference. We extensively validate and demonstrate the effectiveness of our approach on a specially collected Single-eye Event-based Emotion (SEE) dataset. To the best of our knowledge, our method is the first eye-based emotion recognition method that leverages event-based cameras and spiking neural network.

arxiv情報

著者 Haiwei Zhang,Jiqing Zhang,Bo Dong,Pieter Peers,Wenwei Wu,Xiaopeng Wei,Felix Heide,Xin Yang
発行日 2023-10-06 06:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク