Neuromorphic Facial Analysis with Cross-Modal Supervision

要約

RGB フレームを分析する従来のアプローチでは、感情、ポーズ、形状、ランドマークを推測することで、さまざまな角度から顔を詳細に理解することができます。
ただし、微妙な動きに関しては、標準的な RGB カメラは遅延のせいで遅れをとる可能性があり、被写体の本当の感情を推測するための非常に有益な手がかりを運ぶ微小な動きを検出することが困難になります。
この問題に対処するために、イベント カメラを使用して顔を分析することへの関心が高まっています。
それにもかかわらず、RGB 処理のために成熟したすべての専門知識をニューロモーフィック データに直接適用することはできません。これは、データの表現方法における強力なドメイン シフトと本質的な違いのためです。
ラベル付きデータの不足は、このギャップの主な原因の 1 つであると考えられますが、イベント ドメインではデータを収集するのがより困難です。データは Web からクロールできないためです。また、ラベル付けフレームでは、イベントの集約率と静的部分が考慮されているという事実を考慮する必要があります。
フレームによっては表示されない場合があります。
この論文では、まず、RGB ビデオとイベント ストリームの両方を含むマルチモーダルで時間的に同期された顔データセットである FACEMORPHIC を紹介します。
データには顔のアクション ユニットを使用してビデオ レベルでラベルが付けられ、3D 形状推定から読唇術に至るまで、さまざまなアプリケーションを念頭に置いて収集されたストリームも含まれています。
次に、時間的同期により、手動でビデオに注釈を付ける必要なく、効果的なニューロモーフィックな顔分析がどのように可能になるかを示します。代わりに、クロスモーダル監視を活用して、3D 空間で顔の形状を表現することでドメイン ギャップを橋渡しします。

要約(オリジナル)

Traditional approaches for analyzing RGB frames are capable of providing a fine-grained understanding of a face from different angles by inferring emotions, poses, shapes, landmarks. However, when it comes to subtle movements standard RGB cameras might fall behind due to their latency, making it hard to detect micro-movements that carry highly informative cues to infer the true emotions of a subject. To address this issue, the usage of event cameras to analyze faces is gaining increasing interest. Nonetheless, all the expertise matured for RGB processing is not directly transferrable to neuromorphic data due to a strong domain shift and intrinsic differences in how data is represented. The lack of labeled data can be considered one of the main causes of this gap, yet gathering data is harder in the event domain since it cannot be crawled from the web and labeling frames should take into account event aggregation rates and the fact that static parts might not be visible in certain frames. In this paper, we first present FACEMORPHIC, a multimodal temporally synchronized face dataset comprising both RGB videos and event streams. The data is labeled at a video level with facial Action Units and also contains streams collected with a variety of applications in mind, ranging from 3D shape estimation to lip-reading. We then show how temporal synchronization can allow effective neuromorphic face analysis without the need to manually annotate videos: we instead leverage cross-modal supervision bridging the domain gap by representing face shapes in a 3D space.

arxiv情報

著者 Federico Becattini,Luca Cultrera,Lorenzo Berlincioni,Claudio Ferrari,Andrea Leonardo,Alberto Del Bimbo
発行日 2024-09-16 12:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク