IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers

要約

近年、車載モニタリングは、ドライバーの異常状態を早期に検知し、交通事故を未然に防ぐためのタイムリーなアラートを提供する有望な技術として注目されている。マルチモーダルデータを用いたモデルの学習は、異常状態検出の信頼性を向上させるが、ラベル付けされたデータの少なさやクラス分布の不均衡が、重要な異常状態の特徴の抽出を阻害し、学習性能を著しく悪化させる。さらに、環境やハードウェアの制限によるモダリティの欠落は、異常状態識別の課題をさらに悪化させる。さらに重要なことは、特に高齢者介護において、乗客の異常な健康状態を監視することが最も重要であるが、まだ十分に研究されていないことである。このような課題に対処するために、我々はIC3Mを紹介する。IC3Mは、車内のドライバーと同乗者の両方をモニタリングするための、効率的なカメラ回転ベースのマルチモーダルフレームワークである。IC3Mは、適応的閾値擬似ラベリング戦略と欠落モダリティ再構成の2つの主要モジュールから構成される。前者は、クラス分布に基づいて異なるクラスの擬似ラベリング閾値をカスタマイズし、クラスバランスの取れた擬似ラベルを生成してモデル学習を効果的に導く。後者は、限られたラベルから学習したクロスモダリティ関係を活用し、利用可能なモダリティから分布を転送することで欠損モダリティを正確に復元する。広範な実験結果から、IC3Mは、限られたラベル付きデータと深刻な欠損モダリティの下で、優れた頑健性を示しながら、精度、精度、再現率において最先端のベンチマークを上回ることが実証された。

要約(オリジナル)

Recently, in-car monitoring has emerged as a promising technology for detecting early-stage abnormal status of the driver and providing timely alerts to prevent traffic accidents. Although training models with multimodal data enhances the reliability of abnormal status detection, the scarcity of labeled data and the imbalance of class distribution impede the extraction of critical abnormal state features, significantly deteriorating training performance. Furthermore, missing modalities due to environment and hardware limitations further exacerbate the challenge of abnormal status identification. More importantly, monitoring abnormal health conditions of passengers, particularly in elderly care, is of paramount importance but remains underexplored. To address these challenges, we introduce our IC3M, an efficient camera-rotation-based multimodal framework for monitoring both driver and passengers in a car. Our IC3M comprises two key modules: an adaptive threshold pseudo-labeling strategy and a missing modality reconstruction. The former customizes pseudo-labeling thresholds for different classes based on the class distribution, generating class-balanced pseudo labels to guide model training effectively, while the latter leverages crossmodality relationships learned from limited labels to accurately recover missing modalities by distribution transferring from available modalities. Extensive experimental results demonstrate that IC3M outperforms state-of-the-art benchmarks in accuracy, precision, and recall while exhibiting superior robustness under limited labeled data and severe missing modality.

arxiv情報

著者 Zihan Fang,Zheng Lin,Senkang Hu,Hangcheng Cao,Yiqin Deng,Xianhao Chen,Yuguang Fang
発行日 2024-10-03 15:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SY, eess.SY パーマリンク