DeepLocalization: Using change point detection for Temporal Action Localization

要約

この研究では、ドライバーの行動を監視するために明示的に調整されたアクションのリアルタイム位置特定のために考案された革新的なフレームワークである DeepLo​​calization を紹介します。
高度な深層学習手法の力を利用して、私たちの目的は、交通事故の重大な要因である脇見運転という重大な問題に取り組むことです。
当社の戦略では、2 つのアプローチを採用しています。グラフベースの変化点検出を利用して、アクションを正確に分類するとともに、ビデオ大規模言語モデル (Video-LLM) を活用して、アクティビティを正確に分類します。
慎重かつ迅速なエンジニアリングを通じて、運転活動の微妙な違いを適切に処理できるように Video-LLM をカスタマイズし、データがまばらな場合でも分類の有効性を確保します。
軽量になるように設計された当社のフレームワークは、コンシューマーグレードの GPU 向けに最適化されており、実用的なシナリオに幅広く適用できます。
私たちは、わき見運転行動の複雑なベンチマークである SynDD2 データセットでメソッドを厳密にテストし、イベント分類で 57.5% の精度、イベント検出で 51% の精度を達成するという賞賛に値するパフォーマンスを実証しました。
これらの結果は、限られた計算リソースの範囲内で、多様なドライバーの行動とその一時的な出来事を正確に識別するという DeepLo​​calization の実質的な可能性を強調しています。

要約(オリジナル)

In this study, we introduce DeepLocalization, an innovative framework devised for the real-time localization of actions tailored explicitly for monitoring driver behavior. Utilizing the power of advanced deep learning methodologies, our objective is to tackle the critical issue of distracted driving-a significant factor contributing to road accidents. Our strategy employs a dual approach: leveraging Graph-Based Change-Point Detection for pinpointing actions in time alongside a Video Large Language Model (Video-LLM) for precisely categorizing activities. Through careful prompt engineering, we customize the Video-LLM to adeptly handle driving activities’ nuances, ensuring its classification efficacy even with sparse data. Engineered to be lightweight, our framework is optimized for consumer-grade GPUs, making it vastly applicable in practical scenarios. We subjected our method to rigorous testing on the SynDD2 dataset, a complex benchmark for distracted driving behaviors, where it demonstrated commendable performance-achieving 57.5% accuracy in event classification and 51% in event detection. These outcomes underscore the substantial promise of DeepLocalization in accurately identifying diverse driver behaviors and their temporal occurrences, all within the bounds of limited computational resources.

arxiv情報

著者 Mohammed Shaiqur Rahman,Ibne Farabi Shihab,Lynna Chu,Anuj Sharma
発行日 2024-04-18 15:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク