要約
光学式文字認識 (OCR) 手法は、ストリート ビューのテキスト認識や文書分析など、さまざまなタスクに適用されています。
最近、ゼロショット OCR は、不均衡なデータ分布を伴う実用的な OCR シナリオを考慮しているため、研究コミュニティの関心を集めています。
しかし、文字を部首に分解することによる分割統治認識戦略を適用する、このようなゼロショット手法を評価するためのベンチマークが不足しています。
一方、もう 1 つの重要な OCR タスクであるラジカル認識にも、モデル トレーニング用のラジカル レベルのアノテーションが不足しています。
この論文では、部首レベルの注釈と文字レベルの注釈の両方を含む古代中国の文字画像データセットを構築し、上記の方法、つまり ACCID の要件を満たすようにします。部首レベルの注釈には、部首カテゴリ、部首位置、部首レベルの注釈が含まれます。
そして構造的な関係。
ACCID の適応性を高めるために、トレーニング サンプルを強化し、画像品質を向上させる画像ノイズ除去手法を適用するスプライシング ベースの合成文字アルゴリズムを提案します。
文字の分解と再結合を導入することにより、ゼロショット OCR のベースライン方法を提案します。
実験結果は、ACCID とベースライン モデルの有効性を定量的および定性的に示しています。
要約(オリジナル)
Optical character recognition (OCR) methods have been applied to diverse tasks, e.g., street view text recognition and document analysis. Recently, zero-shot OCR has piqued the interest of the research community because it considers a practical OCR scenario with unbalanced data distribution. However, there is a lack of benchmarks for evaluating such zero-shot methods that apply a divide-and-conquer recognition strategy by decomposing characters into radicals. Meanwhile, radical recognition, as another important OCR task, also lacks radical-level annotation for model training. In this paper, we construct an ancient Chinese character image dataset that contains both radical-level and character-level annotations to satisfy the requirements of the above-mentioned methods, namely, ACCID, where radical-level annotations include radical categories, radical locations, and structural relations. To increase the adaptability of ACCID, we propose a splicing-based synthetic character algorithm to augment the training samples and apply an image denoising method to improve the image quality. By introducing character decomposition and recombination, we propose a baseline method for zero-shot OCR. The experimental results demonstrate the validity of ACCID and the baseline model quantitatively and qualitatively.
arxiv情報
著者 | Xiaolei Diao,Daqian Shi,Jian Li,Lida Shi,Mingzhe Yue,Ruihua Qi,Chuntao Li,Hao Xu |
発行日 | 2023-08-01 16:41:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google