Eagle: End-to-end Deep Reinforcement Learning based Autonomous Control of PTZ Cameras

要約

タイトル: Eagle: End-to-end Deep Reinforcement Learning based Autonomous Control of PTZ Cameras

要約:
– PTZカメラの自律制御には、従来のアプローチでは、オブジェクトの検出と位置決めがPTZメカニズムの制御から別々に行われる複数の段階が必要であった。これらのアプローチには手動のラベルが必要であり、情報の多段フローによるエラーの伝播によるパフォーマンスのボトルネックが存在するため、実質的には使われなくなっている。
– 画像を入力として直接 PTZカメラを制御するニューラルネットワークポリシーをトレーニングするための、エンドツーエンドのディープ強化学習ソリューションであるEagleを提案する。
– 強化学習のトレーニングは、ラベル付けの労力、ランタイム環境の不確定性、壊れやすい実験セットアップのため、実世界で非常に煩雑であるため、フォトリアリスティックシミュレーションフレームワークを導入する。
– Eagleは、高解像度でキャプチャされたイメージの中心に興味のあるオブジェクトを保持することによって、優れたカメラ制御性能を実現し、最先端技術に比べて最大17%の追跡期間を持つ。Eagleポリシーは、パラメーター数がYolo5sよりも90倍少なく、Raspberry Pi(33 FPS)やJetson Nano(38 FPS)などの組み込みカメラプラットフォームで実行でき、リソースの制約のある環境のためにリアルタイムPTZトラッキングを容易にする。
– ドメインランダム化を使用することにより、私たちのシミュレータでトレーニングされたEagleポリシーを、直接現実世界の状況に転送できる。

要約(オリジナル)

Existing approaches for autonomous control of pan-tilt-zoom (PTZ) cameras use multiple stages where object detection and localization are performed separately from the control of the PTZ mechanisms. These approaches require manual labels and suffer from performance bottlenecks due to error propagation across the multi-stage flow of information. The large size of object detection neural networks also makes prior solutions infeasible for real-time deployment in resource-constrained devices. We present an end-to-end deep reinforcement learning (RL) solution called Eagle to train a neural network policy that directly takes images as input to control the PTZ camera. Training reinforcement learning is cumbersome in the real world due to labeling effort, runtime environment stochasticity, and fragile experimental setups. We introduce a photo-realistic simulation framework for training and evaluation of PTZ camera control policies. Eagle achieves superior camera control performance by maintaining the object of interest close to the center of captured images at high resolution and has up to 17% more tracking duration than the state-of-the-art. Eagle policies are lightweight (90x fewer parameters than Yolo5s) and can run on embedded camera platforms such as Raspberry PI (33 FPS) and Jetson Nano (38 FPS), facilitating real-time PTZ tracking for resource-constrained environments. With domain randomization, Eagle policies trained in our simulator can be transferred directly to real-world scenarios.

arxiv情報

著者 Sandeep Singh Sandha,Bharathan Balaji,Luis Garcia,Mani Srivastava
発行日 2023-04-10 02:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.SY, eess.SY パーマリンク