E^2VTS: Energy-Efficient Video Text Spotting from Unmanned Aerial Vehicles

要約

無人航空機(UAV)を用いたビデオテキストスポッティングは、民間および軍事分野で広く利用されている。しかし、UAVのバッテリー容量には限りがあるため、エネルギー効率の良いビデオテキストスポッティングのソリューションを開発することが求められている。本論文では、まずRCNNのクロップ&リサイズ学習戦略を再検討し、UAVで撮影された実世界のビデオテキストデータセットにおいて、整列ROIサンプリングより優れていることを経験的に発見する。エネルギー消費を削減するために、我々はさらに、ビデオの冗長性、連続性、混合劣化を考慮した多段画像処理装置を提案する。最後に、Raspberry Piに展開する前に、モデルを刈り込み、量子化する。我々が提案するエネルギー効率の良いビデオテキストスポッティングソリューションは、E^2VTSと名付けられ、エネルギー効率と性能の間の競争的トレードオフを達成することにより、全ての従来手法を凌駕している。すべてのコードと事前学習済みモデルは、https://github.com/wuzhenyusjtu/LPCVC20-VideoTextSpotting で入手可能です。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) based video text spotting has been extensively used in civil and military domains. UAV’s limited battery capacity motivates us to develop an energy-efficient video text spotting solution. In this paper, we first revisit RCNN’s crop & resize training strategy and empirically find that it outperforms aligned RoI sampling on a real-world video text dataset captured by UAV. To reduce energy consumption, we further propose a multi-stage image processor that takes videos’ redundancy, continuity, and mixed degradation into account. Lastly, the model is pruned and quantized before deployed on Raspberry Pi. Our proposed energy-efficient video text spotting solution, dubbed as E^2VTS, outperforms all previous methods by achieving a competitive tradeoff between energy efficiency and performance. All our codes and pre-trained models are available at https://github.com/wuzhenyusjtu/LPCVC20-VideoTextSpotting.

arxiv情報

著者 Zhenyu Hu,Zhenyu Wu,Pengcheng Pi,Yunhe Xue,Jiayi Shen,Jianchao Tan,Xiangru Lian,Zhangyang Wang,Ji Liu
発行日 2022-06-05 22:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク