Efficient Mixture-of-Expert for Video-based Driver State and Physiological Multi-task Estimation in Conditional Autonomous Driving

要約

交通安全は依然として世界中で重要な課題であり、交通事故による死者は年間約 135 万人に上っており、その多くは人的ミスによるものです。
より高いレベルの車両自動化が進むにつれて、課題は依然として存在します。自動化を使用した運転では、ドライバーが運転関連以外の作業 (NDRT) に従事している場合、認知的に過剰な要求を行う可能性があり、運転のみが唯一のタスクである場合、眠気を引き起こす可能性があります。
このため、SAE レベル 2/3 の自動運転状況における認知負荷と眠気を評価できる効果的なドライバー監視システム (DMS) が緊急に必要とされています。
この研究では、RGB ビデオ入力を活用してドライバーの状態を非侵襲的に監視する、VDMoE と呼ばれる新しいマルチタスク DMS を提案します。
主要な顔の特徴を利用して計算負荷を最小限に抑え、生理学的洞察を得るためにリモート光電脈波計 (rPPG) を統合することで、当社のアプローチは効率を維持しながら検出精度を向上させます。
さらに、専門家混合 (MoE) フレームワークを最適化して、マルチモーダルな入力に対応し、さまざまなタスク全体のパフォーマンスを向上させます。
モデル出力を統計的事前分布と一致させるために、新しい事前包括的正則化手法が導入され、これにより収束が加速され、過剰適合のリスクが軽減されます。
42 人の参加者からの RGB ビデオと生理学的指標、および 2 つの公開データセットで構成される新しいデータセット (MCDD) を作成して、この方法を検証します。
私たちの調査結果は、ドライバーの状態を監視する際の VDMoE の有効性を実証し、より安全な自動運転システムに貢献します。
コードとデータは公開されます。

要約(オリジナル)

Road safety remains a critical challenge worldwide, with approximately 1.35 million fatalities annually attributed to traffic accidents, often due to human errors. As we advance towards higher levels of vehicle automation, challenges still exist, as driving with automation can cognitively over-demand drivers if they engage in non-driving-related tasks (NDRTs), or lead to drowsiness if driving was the sole task. This calls for the urgent need for an effective Driver Monitoring System (DMS) that can evaluate cognitive load and drowsiness in SAE Level-2/3 autonomous driving contexts. In this study, we propose a novel multi-task DMS, termed VDMoE, which leverages RGB video input to monitor driver states non-invasively. By utilizing key facial features to minimize computational load and integrating remote Photoplethysmography (rPPG) for physiological insights, our approach enhances detection accuracy while maintaining efficiency. Additionally, we optimize the Mixture-of-Experts (MoE) framework to accommodate multi-modal inputs and improve performance across different tasks. A novel prior-inclusive regularization method is introduced to align model outputs with statistical priors, thus accelerating convergence and mitigating overfitting risks. We validate our method with the creation of a new dataset (MCDD), which comprises RGB video and physiological indicators from 42 participants, and two public datasets. Our findings demonstrate the effectiveness of VDMoE in monitoring driver states, contributing to safer autonomous driving systems. The code and data will be released.

arxiv情報

著者 Jiyao Wang,Xiao Yang,Zhenyu Wang,Ximeng Wei,Ange Wang,Dengbo He,Kaishun Wu
発行日 2024-10-28 14:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク