PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System

要約

光学式文字認識(OCR)技術は、図1に示すように、様々なシーンで広く利用されている。実用的なOCRシステムの設計は、依然として意義深いものですが、困難な課題でもあります。これまでの研究において、効率と精度を考慮し、実用的な超軽量OCRシステム(PP-OCR)とその最適化版PP-OCRv2を提案しました。本論文では、PP-OCRv2の性能をさらに向上させるため、より堅牢なOCRシステムPP-OCRv3を提案します。PP-OCRv3は、PP-OCRv2をベースにテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードしています。テキスト検出器には、LK-PANという大きな受容野を持つPANモジュール、RSE-FPNという残留注意機構を持つFPNモジュール、そしてDML蒸留戦略を導入しています。テキスト認識器については、ベースモデルをCRNNからSVTRに置き換え、軽量テキスト認識ネットワークSVTR LCNet、注意によるCTCのガイド学習、データ増強戦略TextConAug、自己教師付きTextRotNet、UDML、UIMによる優れた事前学習モデルを導入してモデルの高速化と効果改善を図っている。実データを用いた実験では、同等の推論速度でPP-OCRv3のhmeanはPP-OCRv2より5%高いことが示されています。上記のモデルはすべてオープンソースであり、コードはPaddlePaddleが提供するGitHubリポジトリ「PaddleOCR」で公開されています。

要約(オリジナル)

Optical character recognition (OCR) technology has been widely used in various scenes, as shown in Figure 1. Designing a practical OCR system is still a meaningful but challenging task. In previous work, considering the efficiency and accuracy, we proposed a practical ultra lightweight OCR system (PP-OCR), and an optimized version PP-OCRv2. In order to further improve the performance of PP-OCRv2, a more robust OCR system PP-OCRv3 is proposed in this paper. PP-OCRv3 upgrades the text detection model and text recognition model in 9 aspects based on PP-OCRv2. For text detector, we introduce a PAN module with large receptive field named LK-PAN, a FPN module with residual attention mechanism named RSE-FPN, and DML distillation strategy. For text recognizer, the base model is replaced from CRNN to SVTR, and we introduce lightweight text recognition network SVTR LCNet, guided training of CTC by attention, data augmentation strategy TextConAug, better pre-trained model by self-supervised TextRotNet, UDML, and UIM to accelerate the model and improve the effect. Experiments on real data show that the hmean of PP-OCRv3 is 5% higher than PP-OCRv2 under comparable inference speed. All the above mentioned models are open-sourced and the code is available in the GitHub repository PaddleOCR which is powered by PaddlePaddle.

arxiv情報

著者 Chenxia Li,Weiwei Liu,Ruoyu Guo,Xiaoting Yin,Kaitao Jiang,Yongkun Du,Yuning Du,Lingfeng Zhu,Baohua Lai,Xiaoguang Hu,Dianhai Yu,Yanjun Ma
発行日 2022-06-07 04:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク