要約
セキュリティの強化や認可された会場への非接触アクセスなど、いくつかのアプリケーションでは、エッジの公共の場所でのビデオの顔の検出と認識が必要です。
このペーパーは、顔の検出と認識に必要なタスクの同時性とパイプライニングを活用することにより、最近ではエッジGPUで利用可能なハードウェアエンジンの同時使用を最大化することを目的としています。
これには、ビデオストリームが通常GBPSイーサネットネットワークを介して運ばれるため、ほとんどの顔モニタリングアプリケーションで必要なビデオデコードタスクも含まれます。
これは、すべてのハードウェアエンジンを同時に探索する統一された自動化されたフレームワークがないため、通常、タスクが単一のエンジンに割り当てられる以前の作品よりも改善を構成します。
さらに、以前は、入力面は通常、静止画像またはデコード段階によって引き起こされるバースト遅延を見落とす生のビデオストリームに埋め込まれていました。
現実のビデオストリームの結果は、最近のNvidia Edge Orin GPU、より高いスループット、および約5%を占める約300 MWの消費電力をわずかに節約することで、リアルタイムのパフォーマンスの制約を満たしながら達成されていることを同時に示唆しています。
いくつかのビデオストリームを同時に考慮することにより、パフォーマンスはさらに高くなります。
顔認識タスクのテンソルRTフレームワークによって作成されたシャッフル層の数が低い場合、さらなるパフォーマンスの改善が得られた可能性があります。
したがって、このペーパーでは、既存のエッジGPUプロセッサのハードウェアの改善がさらに高くなることを示唆しており、パフォーマンスをさらに高めます。
要約(オリジナル)
Video face detection and recognition in public places at the edge is required in several applications, such as security reinforcement and contactless access to authorized venues. This paper aims to maximize the simultaneous usage of hardware engines available in edge GPUs nowadays by leveraging the concurrency and pipelining of tasks required for face detection and recognition. This also includes the video decoding task, which is required in most face monitoring applications as the video streams are usually carried via Gbps Ethernet network. This constitutes an improvement over previous works where the tasks are usually allocated to a single engine due to the lack of a unified and automated framework that simultaneously explores all hardware engines. In addition, previously, the input faces were usually embedded in still images or within raw video streams that overlook the burst delay caused by the decoding stage. The results on real-life video streams suggest that simultaneously using all the hardware engines available in the recent NVIDIA edge Orin GPU, higher throughput, and a slight saving of power consumption of around 300 mW, accounting for around 5%, have been achieved while satisfying the real-time performance constraint. The performance gets even higher by considering several video streams simultaneously. Further performance improvement could have been obtained if the number of shuffle layers that were created by the tensor RT framework for the face recognition task was lower. Thus, the paper suggests some hardware improvements to the existing edge GPU processors to enhance their performance even higher.
arxiv情報
| 著者 | Asma Baobaid,Mahmoud Meribout | 
| 発行日 | 2025-05-07 15:22:17+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
