DTrOCR: Decoder-only Transformer for Optical Character Recognition

要約

一般的なテキスト認識方法は、エンコーダが画像から特徴を抽出し、デコーダがこれらの特徴から認識されたテキストを生成するエンコーダ – デコーダ構造に依存しています。
この研究では、光学文字認識用のデコーダ専用変換器 (DTrOCR) として知られる、よりシンプルで効果的なテキスト認識方法を提案します。
この方法では、デコーダ専用の Transformer を使用して、大規模なコーパスで事前トレーニングされた生成言語モデルを利用します。
私たちは、自然言語処理で成功した生成言語モデルが、コンピュータビジョンにおけるテキスト認識にも有効であるかどうかを検討しました。
私たちの実験では、DTrOCR が、英語と中国語の両方の印刷テキスト、手書きテキスト、シーン テキストの認識において、現在の最先端の方法よりも大幅に優れていることが実証されました。

要約(オリジナル)

Typical text recognition methods rely on an encoder-decoder structure, in which the encoder extracts features from an image, and the decoder produces recognized text from these features. In this study, we propose a simpler and more effective method for text recognition, known as the Decoder-only Transformer for Optical Character Recognition (DTrOCR). This method uses a decoder-only Transformer to take advantage of a generative language model that is pre-trained on a large corpus. We examined whether a generative language model that has been successful in natural language processing can also be effective for text recognition in computer vision. Our experiments demonstrated that DTrOCR outperforms current state-of-the-art methods by a large margin in the recognition of printed, handwritten, and scene text in both English and Chinese.

arxiv情報

著者 Masato Fujitake
発行日 2023-08-30 12:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク