Video-to-Text Pedestrian Monitoring (VTPM): Leveraging Computer Vision and Large Language Models for Privacy-Preserve Pedestrian Activity Monitoring at Intersections

要約

コンピューター ビジョンは高度な研究方法論を備えており、さまざまな分野にわたるシステム サービスを強化しています。
これは、交通安全を向上させるための交通監視システムの中核コンポーネントです。
ただし、これらの監視システムはビデオに登場する歩行者のプライバシーを保護しておらず、彼らの身元が明らかになる可能性があります。
この問題に対処するために、私たちの論文では、交差点での歩行者の動きを監視し、信号や気象情報を含むリアルタイムのテキストレポートを生成する、ビデオからテキストへの歩行者監視 (VTPM) を紹介します。
VTPM は、歩行者の検出と追跡にコンピューター ビジョン モデルを使用し、ビデオ フレームあたり 0.05 秒の遅延を実現します。
さらに、信号機データを組み込むことで、90.2%の精度で交差点違反を検出します。
提案されたフレームワークには Phi-3 mini-4k が装備されており、歩行者の活動に関するリアルタイムのテキストレポートを生成すると同時に、横断違反、衝突、天候による歩行者の行動への影響などの安全上の懸念を 0.33 秒の遅延で表示します。
生成されたテキスト レポートの包括的な分析を強化するために、Phi-3 メディアは、生成されたテキスト レポートの履歴分析用に微調整されています。
この微調整により、交差点での歩行者の安全性についてより信頼性の高い分析が可能になり、パターンや安全上重要なイベントを効果的に検出できます。
提案された VTPM は、テキスト レポートを使用することでビデオ映像に代わるより効率的な代替手段を提供し、メモリ使用量を削減し、最大 2 億 5,300 万パーセントを節約し、プライバシーの問題を排除し、包括的なインタラクティブな履歴分析を可能にします。

要約(オリジナル)

Computer vision has advanced research methodologies, enhancing system services across various fields. It is a core component in traffic monitoring systems for improving road safety; however, these monitoring systems don’t preserve the privacy of pedestrians who appear in the videos, potentially revealing their identities. Addressing this issue, our paper introduces Video-to-Text Pedestrian Monitoring (VTPM), which monitors pedestrian movements at intersections and generates real-time textual reports, including traffic signal and weather information. VTPM uses computer vision models for pedestrian detection and tracking, achieving a latency of 0.05 seconds per video frame. Additionally, it detects crossing violations with 90.2% accuracy by incorporating traffic signal data. The proposed framework is equipped with Phi-3 mini-4k to generate real-time textual reports of pedestrian activity while stating safety concerns like crossing violations, conflicts, and the impact of weather on their behavior with latency of 0.33 seconds. To enhance comprehensive analysis of the generated textual reports, Phi-3 medium is fine-tuned for historical analysis of these generated textual reports. This fine-tuning enables more reliable analysis about the pedestrian safety at intersections, effectively detecting patterns and safety critical events. The proposed VTPM offers a more efficient alternative to video footage by using textual reports reducing memory usage, saving up to 253 million percent, eliminating privacy issues, and enabling comprehensive interactive historical analysis.

arxiv情報

著者 Ahmed S. Abdelrahman,Mohamed Abdel-Aty,Dongdong Wang
発行日 2024-08-21 14:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク