MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO

要約

低照度条件や遮蔽されたシナリオは、自動運転車やセキュリティ システムなどの現実世界のモノのインターネット (IoT) アプリケーションにおける物体検出を妨げます。
高度な機械学習モデルは精度を追求していますが、その計算需要がリソースに制約のあるデバイスの制限と衝突し、リアルタイム パフォーマンスを妨げます。
私たちの現在の研究では、これまで考えられた中で最小の YOLO モデルの 1 つである「YOLO Phantom」を導入することで、この課題に取り組んでいます。
YOLO Phantom は新しい Phantom Convolution ブロックを利用し、最新の YOLOv8n モデルと同等の精度を達成しながら、同時にパラメーターとモデル サイズの両方を 43% 削減し、その結果ギガ浮動小数点演算 (GFLOP) が 19% 大幅に削減されました。
YOLO Phantom は、マルチモーダル RGB 赤外線データセットの転移学習を活用して、低照度や遮蔽の問題に対処し、悪条件下でも堅牢な視覚を備えます。
その現実世界での有効性は、高度な低照度カメラと RGB カメラを備えた IoT プラットフォームで実証され、AWS ベースの通知エンドポイントにシームレスに接続して効率的なリアルタイムの物体検出を実現します。
ベンチマークでは、ベースラインの YOLOv8n モデルと比較して、熱検出と RGB 検出の 1 秒あたりのフレーム数 (FPS) がそれぞれ 17% と 14% 大幅に向上していることがわかります。
コミュニティへの貢献のために、コードとマルチモーダル データセットの両方が GitHub で入手できます。

要約(オリジナル)

Low-light conditions and occluded scenarios impede object detection in real-world Internet of Things (IoT) applications like autonomous vehicles and security systems. While advanced machine learning models strive for accuracy, their computational demands clash with the limitations of resource-constrained devices, hampering real-time performance. In our current research, we tackle this challenge, by introducing ‘YOLO Phantom’, one of the smallest YOLO models ever conceived. YOLO Phantom utilizes the novel Phantom Convolution block, achieving comparable accuracy to the latest YOLOv8n model while simultaneously reducing both parameters and model size by 43%, resulting in a significant 19% reduction in Giga Floating Point Operations (GFLOPs). YOLO Phantom leverages transfer learning on our multimodal RGB-infrared dataset to address low-light and occlusion issues, equipping it with robust vision under adverse conditions. Its real-world efficacy is demonstrated on an IoT platform with advanced low-light and RGB cameras, seamlessly connecting to an AWS-based notification endpoint for efficient real-time object detection. Benchmarks reveal a substantial boost of 17% and 14% in frames per second (FPS) for thermal and RGB detection, respectively, compared to the baseline YOLOv8n model. For community contribution, both the code and the multimodal dataset are available on GitHub.

arxiv情報

著者 Shubhabrata Mukherjee,Cory Beard,Zhu Li
発行日 2024-02-12 18:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク