ViT-DD: Multi-Task Vision Transformer for Semi-Supervised Driver Distraction Detection

要約

現代の運転における交通安全の確保と事故の軽減は最も重要であり、コンピュータービジョンテクノロジーはこの目標に大きく貢献する可能性を秘めています。
この論文では、ドライバーの注意散漫検出とドライバーの感情認識の両方に関連するトレーニング信号からの誘導情報を組み込んだ、ドライバーの注意散漫検出のためのマルチモーダル ビジョン トランスフォーマー (ViT-DD と呼ばれます) について説明します。
さらに、自己学習アルゴリズムが開発され、感情ラベルのないドライバーデータを ViT-DD のマルチタスクトレーニングプロセスにシームレスに統合できるようになりました。
実験結果から、提案された ViT-DD は、ドライバーの注意散漫検出に関する既存の最先端の方法を、SFDDD データセットおよび AUCDD データセットでそれぞれ 6.5% および 0.9% 上回っていることが明らかになりました。

要約(オリジナル)

Ensuring traffic safety and mitigating accidents in modern driving is of paramount importance, and computer vision technologies have the potential to significantly contribute to this goal. This paper presents a multi-modal Vision Transformer for Driver Distraction Detection (termed ViT-DD), which incorporates inductive information from training signals related to both distraction detection and driver emotion recognition. Additionally, a self-learning algorithm is developed, allowing for the seamless integration of driver data without emotion labels into the multi-task training process of ViT-DD. Experimental results reveal that the proposed ViT-DD surpasses existing state-of-the-art methods for driver distraction detection by 6.5% and 0.9% on the SFDDD and AUCDD datasets, respectively.

arxiv情報

著者 Yunsheng Ma,Ziran Wang
発行日 2024-02-06 17:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク