EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation

要約

ドライバーの注意を 2 つの視野 (FOV) にわたる運転シーンに関連付けるのは、領域をまたがる認識の難しい問題であり、視野間のマッピング、動的な運転シーンの分析、およびドライバーの状態の追跡を包括的に考慮する必要があります。
従来の方法は通常、単一のビューに焦点を当てたり、推定された視線を介してシーンに注意をマッピングしたりしており、それらの間の暗黙的なつながりを利用できませんでした。
さらに、単純な融合モジュールでは 2 つのビュー間の複雑な関係をモデル化するには不十分であり、情報統合が困難になっています。
これらの問題に対処するために、EraW-Net と呼ばれる、エンドツーエンドのシーンに関連するドライバーの注意力を推定するための新しい方法を提案します。
この方法は、最も識別力の高い動的キューを強化し、特徴表現を洗練し、W-Net と呼ばれる W 型アーキテクチャを通じて意味的に調整されたクロスドメイン統合を促進します。
具体的には、動的適応フィルター モジュール (DAF モジュール) が提案され、重要領域を抽出することで頻繁に変化する運転環境の課題に対処します。
無差別に記録されたダイナミクスを抑制し、革新的な共同周波数空間解析によって重要なダイナミクスを強調表示し、複雑なダイナミクスを解析するモデルの能力を強化します。
さらに、固定されていない顔のポーズ中のドライバーの状態を追跡するために、さまざまなスケールの頭と目の動きに適応する階層的な特徴をキャプチャすることによって、洗練された特徴表現を構築するグローバル コンテキスト共有モジュール (GCS モジュール) を提案します。
最後に、W-Net は、「エンコーディングに依存しない部分デコーディング – 融合デコーディング」構造を通じて体系的なクロスビュー情報統合を実現し、異種データ統合におけるセマンティックの不一致に対処します。
実験により、提案された方法が大規模な公開データセット上のシーンにおけるドライバーの注意力のマッピングを堅牢かつ正確に推定できることが実証されています。

要約(オリジナル)

Associating driver attention with driving scene across two fields of views (FOVs) is a hard cross-domain perception problem, which requires comprehensive consideration of cross-view mapping, dynamic driving scene analysis, and driver status tracking. Previous methods typically focus on a single view or map attention to the scene via estimated gaze, failing to exploit the implicit connection between them. Moreover, simple fusion modules are insufficient for modeling the complex relationships between the two views, making information integration challenging. To address these issues, we propose a novel method for end-to-end scene-associated driver attention estimation, called EraW-Net. This method enhances the most discriminative dynamic cues, refines feature representations, and facilitates semantically aligned cross-domain integration through a W-shaped architecture, termed W-Net. Specifically, a Dynamic Adaptive Filter Module (DAF-Module) is proposed to address the challenges of frequently changing driving environments by extracting vital regions. It suppresses the indiscriminately recorded dynamics and highlights crucial ones by innovative joint frequency-spatial analysis, enhancing the model’s ability to parse complex dynamics. Additionally, to track driver states during non-fixed facial poses, we propose a Global Context Sharing Module (GCS-Module) to construct refined feature representations by capturing hierarchical features that adapt to various scales of head and eye movements. Finally, W-Net achieves systematic cross-view information integration through its ‘Encoding-Independent Partial Decoding-Fusion Decoding’ structure, addressing semantic misalignment in heterogeneous data integration. Experiments demonstrate that the proposed method robustly and accurately estimates the mapping of driver attention in scene on large public datasets.

arxiv情報

著者 Jun Zhou,Chunsheng Liu,Faliang Chang,Wenqian Wang,Penghui Hao,Yiming Huang,Zhiqiang Yang
発行日 2024-10-31 16:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク