Robust Multiview Multimodal Driver Monitoring System Using Masked Multi-Head Self-Attention

要約

タイトル:マスクされたマルチヘッド自己注意を用いた頑健なマルチビューマルチモーダルドライバーモニタリングシステム
要約:
– ドライバーモニタリングシステム(DMS)は、レベル2以上の自動運転車両における安全なハンドオーバーアクションにとって重要です。
– 最新のDMSは、複数のセンサーを搭載し、ドライバーや車両の内部シーンを監視し、これらの異種データを統合するために意思決定レベルの融合を利用しています。
– しかし、この融合方式は、異なるデータソースの相補性を十分に活用せず、その相対的な重要性を見落とす可能性があります。
– これらの制限に対処するために、私たちは、マルチヘッド自己注意(MHSA)を介した特徴レベルの融合に基づく新しいマルチビューマルチモーダルドライバーモニタリングシステムを提案しています。
– 私たちは、Sum、Conv、SE、そしてAFFという4つの代替融合戦略と比較して、その有効性を実証します。
– さらに、私たちは、より良い表現を学習するための新しいGPUフレンドリーな教師あり対局学習フレームワークSuMoCoを提供します。
– さらに、私たちはDADデータセットのテスト分割を細分化して、ドライバーの活動のマルチクラス認識を可能にしました。
– この強化されたデータベースでの実験は、1)提案されたMHSAベースの融合方法(AUC-ROC:97.0%)がすべてのベースラインおよび以前の手法を上回り、2)パッチマスキングでMHSAをトレーニングすることで、その頑健性をモダリティ/ビュー崩壊に対して向上させることができることを示しています。
– コードと注釈は公開されています。

要約(オリジナル)

Driver Monitoring Systems (DMSs) are crucial for safe hand-over actions in Level-2+ self-driving vehicles. State-of-the-art DMSs leverage multiple sensors mounted at different locations to monitor the driver and the vehicle’s interior scene and employ decision-level fusion to integrate these heterogenous data. However, this fusion method may not fully utilize the complementarity of different data sources and may overlook their relative importance. To address these limitations, we propose a novel multiview multimodal driver monitoring system based on feature-level fusion through multi-head self-attention (MHSA). We demonstrate its effectiveness by comparing it against four alternative fusion strategies (Sum, Conv, SE, and AFF). We also present a novel GPU-friendly supervised contrastive learning framework SuMoCo to learn better representations. Furthermore, We fine-grained the test split of the DAD dataset to enable the multi-class recognition of drivers’ activities. Experiments on this enhanced database demonstrate that 1) the proposed MHSA-based fusion method (AUC-ROC: 97.0\%) outperforms all baselines and previous approaches, and 2) training MHSA with patch masking can improve its robustness against modality/view collapses. The code and annotations are publicly available.

arxiv情報

著者 Yiming Ma,Victor Sanchez,Soodeh Nikan,Devesh Upadhyay,Bhushan Atote,Tanaya Guha
発行日 2023-04-13 09:50:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク