Character decomposition to resolve class imbalance problem in Hangul OCR


韓国語文字ハングルの OCR (光学式文字認識) への新しいアプローチを提示します。
表音文字として、ハングルは、書記素の組み合わせで各文字を記述することにより、わずか 52 の書記素で 11,172 の異なる文字を表すことができます。
文字の総数がニューラル ネットワークの容量を圧倒する可能性があるため、既存の OCR エンコード方法では、頻繁に使用される少数の文字セットが事前に定義されています。
このデザインの選択は、当然のことながら、ディストリビューション内のロングテール キャラクターのパフォーマンスを低下させます。
この作業では、書記素エンコーディングが効率的であるだけでなく、ハングル OCR に対してもパフォーマンスが高いことを示します。
ベンチマーク テストは、私たちのアプローチがハングル OCR の 2 つの主な問題であるクラスの不均衡とターゲット クラスの選択を解決することを示しています。


We present a novel approach to OCR(Optical Character Recognition) of Korean character, Hangul. As a phonogram, Hangul can represent 11,172 different characters with only 52 graphemes, by describing each character with a combination of the graphemes. As the total number of the characters could overwhelm the capacity of a neural network, the existing OCR encoding methods pre-define a smaller set of characters that are frequently used. This design choice naturally compromises the performance on long-tailed characters in the distribution. In this work, we demonstrate that grapheme encoding is not only efficient but also performant for Hangul OCR. Benchmark tests show that our approach resolves two main problems of Hangul OCR: class imbalance and target class selection.


著者 Geonuk Kim,Jaemin Son,Kanghyu Lee,Jaesik Min
発行日 2022-08-12 01:35:17+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV パーマリンク