Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression

要約

ドライバーの表情認識 (DFER) の既存の方法は多くの場合、計算量が多く、リアルタイム アプリケーションには適していません。
この研究では、計算効率と精度をエレガントに組み合わせた、ShuffViT-DFER という新しい転移学習ベースのデュアル アーキテクチャを導入します。
これは、畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマー (ViT) を使用した 2 つの軽量で効率的なモデルの長所を活用することで実現されます。
抽出された特徴を効率的に融合し、ドライバーの表情を正確に認識するモデルの性能を向上させます。
KMU-FED と KDEF という 2 つのベンチマークおよび公開データセットに関する私たちの実験結果は、最先端の方法と比較した場合に、優れたパフォーマンスを備えたリアルタイム アプリケーションに対する私たちの提案方法の有効性を強調しています。

要約(オリジナル)

Existing methods for driver facial expression recognition (DFER) are often computationally intensive, rendering them unsuitable for real-time applications. In this work, we introduce a novel transfer learning-based dual architecture, named ShuffViT-DFER, which elegantly combines computational efficiency and accuracy. This is achieved by harnessing the strengths of two lightweight and efficient models using convolutional neural network (CNN) and vision transformers (ViT). We efficiently fuse the extracted features to enhance the performance of the model in accurately recognizing the facial expressions of the driver. Our experimental results on two benchmarking and public datasets, KMU-FED and KDEF, highlight the validity of our proposed method for real-time application with superior performance when compared to state-of-the-art methods.

arxiv情報

著者 Ibtissam Saadi,Douglas W. Cunningham,Taleb-ahmed Abdelmalik,Abdenour Hadid,Yassin El Hillali
発行日 2024-09-05 11:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク