要約
現在、手書きテキストのシーケンス構造の破壊が、認識タスクを制限する主なボトルネックの 1 つとなっています。
典型的な状況には、追加の特定のマーカー (テキストの交換変更) や、削除、置換、挿入などの文字変更によって引き起こされるテキストの重複が含まれます。
この論文では、上記のテキストに対して構造知識と深層モデルを組み合わせた 2 段階の検出アルゴリズムを提案します。
まず、手書きのテキスト画像からさまざまな構造のプロトタイプを大まかに特定します。
第 1 段階の検出結果に基づいて、第 2 段階では異なる戦略を採用します。
具体的には、新しい半教師ありコントラストトレーニング戦略によってトレーニングされた形状回帰ネットワークが導入され、キャラクター間の位置関係が最大限に活用されます。
2 つの手書きテキスト データセットでの実験により、提案された方法により検出パフォーマンスが大幅に向上することが示されました。
新しいデータセットは https://github.com/Wukong90 で入手できます。
要約(オリジナル)
Currently, the destruction of the sequence structure in handwritten text has become one of the main bottlenecks restricting the recognition task. The typical situations include additional specific markers (the text swapping modification) and the text overlap caused by character modifications like deletion, replacement, and insertion. In this paper, we propose a two-stage detection algorithm that combines structure knowledge and deep models for the above mentioned text. Firstly, different structure prototypes are roughly located from handwritten text images. Based on the detection results of the first stage, in the second stage, we adopt different strategies. Specifically, a shape regression network trained by a novel semi-supervised contrast training strategy is introduced and the positional relationship between the characters is fully employed. Experiments on two handwritten text datasets show that the proposed method can greatly improve the detection performance. The new dataset is available at https://github.com/Wukong90.
arxiv情報
著者 | Zi-Rui Wang |
発行日 | 2024-10-15 14:57:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google