Levenshtein OCR

要約

Vision-Language Transformer (VLT)に基づく、新しいシーンテキスト認識システムを提案する。自然言語処理分野におけるレーベンシュタイン変換に触発され、提案手法(レーベンシュタインOCR、略してLevOCR)は、切り出した自然画像からテキストコンテンツを自動的に転写するための代替方法を探求している。具体的には、シーンテキスト認識の問題を反復的な配列改良の過程と見なす。視覚モデルによって生成された最初の予測列はエンコードされ、クロスモーダル変換器に供給され、視覚的特徴と相互作用し融合することで、徐々にグランドトゥルースに近づくようになる。洗練プロセスは、削除と挿入という2つの基本的な文字レベルの操作によって達成される。これらは模倣学習によって学習され、並列デコーディング、動的な長さの変更、良好な解釈可能性を可能にする。定量的実験により、LevOCRが標準的なベンチマークにおいて最先端の性能を達成することが明確に示され、定性的分析により、提案するLevOCRアルゴリズムの有効性と優位性が検証されています。コードは近日公開予定です。

要約(オリジナル)

A novel scene text recognizer based on Vision-Language Transformer (VLT) is presented. Inspired by Levenshtein Transformer in the area of NLP, the proposed method (named Levenshtein OCR, and LevOCR for short) explores an alternative way for automatically transcribing textual content from cropped natural images. Specifically, we cast the problem of scene text recognition as an iterative sequence refinement process. The initial prediction sequence produced by a pure vision model is encoded and fed into a cross-modal transformer to interact and fuse with the visual features, to progressively approximate the ground truth. The refinement process is accomplished via two basic character-level operations: deletion and insertion, which are learned with imitation learning and allow for parallel decoding, dynamic length change and good interpretability. The quantitative experiments clearly demonstrate that LevOCR achieves state-of-the-art performances on standard benchmarks and the qualitative analyses verify the effectiveness and advantage of the proposed LevOCR algorithm. Code will be released soon.

arxiv情報

著者 Cheng Da,Peng Wang,Cong Yao
発行日 2022-09-08 06:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク