Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning

要約

漢字認識(CCR)は、インテリジェントなドキュメント処理の基本的な技術です。
ラテン文字とは異なり、漢字はユニークな空間構造と構成ルールを示し、表現に細粒の意味情報を使用できます。
ただし、既存のアプローチは通常、自動回帰と編集距離後のプロセスに基づいており、通常、単一レベルの文字表現に依存しています。
このホワイトペーパーでは、対照的なパラダイムに基づいて階層的な多粒度画像テキストALIGNING(HI-GITA)フレームワークを提案します。
漢字の豊富なきめの細かいセマンティック情報を活用するために、画像側とテキスト側の両方でマルチ粒度エンコーダーを提案します。
具体的には、画像の多粒度エンコーダーは、文字画像から階層画像表現を抽出し、ローカライズされたストロークからホリスティック構造までのセマンティックキューをキャプチャします。
テキストの多粒度エンコーダーは、さまざまなレベルの粒度でストロークとラジカル配列表現を抽出します。
ストロークとラジカルの関係をより適切に把握するために、画像とテキストの側面にそれぞれ多粒度融合モジュールを導入します。
さらに、2つのモダリティを効果的に橋渡しするために、さらに、複数の粒度にわたって画像とテキストの表現を整列させる、細粒の分離された画像テキストの対照喪失をさらに導入します。
広範な実験は、提案されたHi-gitaが既存のゼロショットCCRメソッドを大幅に上回ることを示しています。
たとえば、手書きのキャラクターとラジカルゼロショット設定に約20%の精度改善がもたらされます。
コードとモデルはまもなくリリースされます。

要約(オリジナル)

Chinese Character Recognition (CCR) is a fundamental technology for intelligent document processing. Unlike Latin characters, Chinese characters exhibit unique spatial structures and compositional rules, allowing for the use of fine-grained semantic information in representation. However, existing approaches are usually based on auto-regressive as well as edit distance post-process and typically rely on a single-level character representation. In this paper, we propose a Hierarchical Multi-Granularity Image-Text Aligning (Hi-GITA) framework based on a contrastive paradigm. To leverage the abundant fine-grained semantic information of Chinese characters, we propose multi-granularity encoders on both image and text sides. Specifically, the Image Multi-Granularity Encoder extracts hierarchical image representations from character images, capturing semantic cues from localized strokes to holistic structures. The Text Multi-Granularity Encoder extracts stroke and radical sequence representations at different levels of granularity. To better capture the relationships between strokes and radicals, we introduce Multi-Granularity Fusion Modules on the image and text sides, respectively. Furthermore, to effectively bridge the two modalities, we further introduce a Fine-Grained Decoupled Image-Text Contrastive loss, which aligns image and text representations across multiple granularities. Extensive experiments demonstrate that our proposed Hi-GITA significantly outperforms existing zero-shot CCR methods. For instance, it brings about 20% accuracy improvement in handwritten character and radical zero-shot settings. Code and models will be released soon.

arxiv情報

著者 Yinglian Zhu,Haiyang Yu,Qizao Wang,Wei Lu,Xiangyang Xue,Bin Li
発行日 2025-05-30 17:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク