TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

要約

文字認識は、文書の電子化における長年の研究課題である。既存のアプローチは通常、画像理解のためのCNNと文字レベルテキスト生成のためのRNNに基づいて構築されている。さらに、全体的な精度を向上させるために、通常、後処理として別の言語モデルが必要とされる。本論文では、事前に学習された画像TransformerとテキストTransformerモデル、すなわちTrOCRを用いたエンドツーエンドのテキスト認識アプローチを提案し、画像理解と単語レベルのテキスト生成の両方にTransformerアーキテクチャを活用することを提案する。TrOCRはシンプルでありながら効果的なモデルであり、大規模な合成データで事前学習し、人間がラベル付けしたデータセットで微調整することが可能である。実験によると、TrOCRモデルは印刷物、手書き文字、シーンテキスト認識タスクにおいて、現在の最先端モデルを凌駕する性能を示した。TrOCRのモデルとコードはthe \url{https://aka.ms/trocr} で公開されています。

要約(オリジナル)

Text recognition is a long-standing research problem for document digitalization. Existing approaches are usually built based on CNN for image understanding and RNN for char-level text generation. In addition, another language model is usually needed to improve the overall accuracy as a post-processing step. In this paper, we propose an end-to-end text recognition approach with pre-trained image Transformer and text Transformer models, namely TrOCR, which leverages the Transformer architecture for both image understanding and wordpiece-level text generation. The TrOCR model is simple but effective, and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. Experiments show that the TrOCR model outperforms the current state-of-the-art models on the printed, handwritten and scene text recognition tasks. The TrOCR models and code are publicly available at \url{https://aka.ms/trocr}.

arxiv情報

著者 Minghao Li,Tengchao Lv,Jingye Chen,Lei Cui,Yijuan Lu,Dinei Florencio,Cha Zhang,Zhoujun Li,Furu Wei
発行日 2022-09-06 15:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク