要約
手書きの中国語テキスト認識 (HCTR) は、何十年にもわたって活発な研究テーマとなっています。
ただし、ほとんどの以前の研究は、実際のアプリケーションでのテキスト行検出によって引き起こされるエラーを無視して、トリミングされたテキスト行画像の認識のみに焦点を当てています。
近年、ページレベルのテキスト認識を目的としたいくつかのアプローチが提案されていますが、単純なレイアウトに限定されているか、高価な行レベルや文字レベルの境界ボックスを含む非常に詳細な注釈が必要です。
この目的のために、エンドツーエンドの弱く監視されたページレベルの HCTR に PageNet を提案します。
PageNet は文字を検出して認識し、それらの間の読み取り順序を予測します。これは、多方向や曲線のテキスト行を含む複雑なレイアウトを処理する際により堅牢で柔軟です。
提案された弱教師付き学習フレームワークを利用して、PageNet は実際のデータに対して注釈を付けるためにトランスクリプトのみを必要とします。
ただし、文字レベルと行レベルの両方で検出と認識の結果を出力できるため、文字とテキスト行の境界ボックスにラベルを付ける労力とコストを回避できます。
5 つのデータセットに対して実施された広範な実験により、既存の弱い教師ありおよび完全教師ありのページレベルの方法よりも PageNet の優位性が実証されています。
これらの実験結果は、コネクショニストの時間的分類または注意に基づく既存の方法の領域を超えたさらなる研究を引き起こす可能性があります。
ソース コードは、https://github.com/shannanyinxiang/PageNet で入手できます。
要約(オリジナル)
Handwritten Chinese text recognition (HCTR) has been an active research topic for decades. However, most previous studies solely focus on the recognition of cropped text line images, ignoring the error caused by text line detection in real-world applications. Although some approaches aimed at page-level text recognition have been proposed in recent years, they either are limited to simple layouts or require very detailed annotations including expensive line-level and even character-level bounding boxes. To this end, we propose PageNet for end-to-end weakly supervised page-level HCTR. PageNet detects and recognizes characters and predicts the reading order between them, which is more robust and flexible when dealing with complex layouts including multi-directional and curved text lines. Utilizing the proposed weakly supervised learning framework, PageNet requires only transcripts to be annotated for real data; however, it can still output detection and recognition results at both the character and line levels, avoiding the labor and cost of labeling bounding boxes of characters and text lines. Extensive experiments conducted on five datasets demonstrate the superiority of PageNet over existing weakly supervised and fully supervised page-level methods. These experimental results may spark further research beyond the realms of existing methods based on connectionist temporal classification or attention. The source code is available at https://github.com/shannanyinxiang/PageNet.
arxiv情報
著者 | Dezhi Peng,Lianwen Jin,Yuliang Liu,Canjie Luo,Songxuan Lai |
発行日 | 2022-07-29 17:47:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google