DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification

要約

ドライバーの注意力散漫は依然として交通事故の主な原因であり、世界的に交通安全に対する重大な脅威となっています。
インテリジェント交通システムが進化するにつれて、ドライバーの注意散漫を正確かつリアルタイムで特定することが不可欠になっています。
しかし、既存の手法は、トレーニング データセット内のノイズの多いラベルと闘いながら、グローバルなコンテキストと詳細なローカル特徴の両方をキャプチャするのに苦労しています。
これらの課題に対処するために、私たちは DSDFormer を提案します。DSDFormer は、デュアル ステート ドメイン アテンション (DSDA) メカニズムを通じて Transformer と Mamba アーキテクチャの長所を統合する新しいフレームワークで、長距離の依存関係と詳細な特徴抽出の間のバランスをとり、堅牢なドライバー動作認識を可能にします。
さらに、ビデオ シーケンスの時空間相関を利用してノイズの多いラベルを洗練する教師なしアプローチである時間推論自信学習 (TRCL) を導入します。
私たちのモデルは、AUC-V1、AUC-V2、および 100-Driver データセットで最先端のパフォーマンスを実現し、NVIDIA Jetson AGX Orin プラットフォームでのリアルタイム処理効率を実証します。
広範な実験結果により、DSDFormer と TRCL がドライバーの注意散漫検出の精度と堅牢性の両方を大幅に向上させ、交通安全を強化する拡張可能なソリューションを提供することが確認されています。

要約(オリジナル)

Driver distraction remains a leading cause of traffic accidents, posing a critical threat to road safety globally. As intelligent transportation systems evolve, accurate and real-time identification of driver distraction has become essential. However, existing methods struggle to capture both global contextual and fine-grained local features while contending with noisy labels in training datasets. To address these challenges, we propose DSDFormer, a novel framework that integrates the strengths of Transformer and Mamba architectures through a Dual State Domain Attention (DSDA) mechanism, enabling a balance between long-range dependencies and detailed feature extraction for robust driver behavior recognition. Additionally, we introduce Temporal Reasoning Confident Learning (TRCL), an unsupervised approach that refines noisy labels by leveraging spatiotemporal correlations in video sequences. Our model achieves state-of-the-art performance on the AUC-V1, AUC-V2, and 100-Driver datasets and demonstrates real-time processing efficiency on the NVIDIA Jetson AGX Orin platform. Extensive experimental results confirm that DSDFormer and TRCL significantly improve both the accuracy and robustness of driver distraction detection, offering a scalable solution to enhance road safety.

arxiv情報

著者 Junzhou Chen,Zirui Zhang,Jing Yu,Heqiang Huang,Ronghui Zhang,Xuemiao Xu,Bin Sheng,Hong Yan
発行日 2024-09-12 15:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク