要約
テキスト認識、特に中国語のような複雑な文字の場合、その複雑な文字構造と膨大な語彙により、独特の課題に直面しています。
従来のワンホット エンコーディング手法は、計算量が多いため、階層部首の表現、語彙外 (OOV) 文字の認識、およびデバイス上での展開に問題がありました。
これらの課題に対処するために、私たちは、漢字本来の階層的な性質を利用する、斬新で軽量なコードブックである HierCode を提案します。
HierCode はマルチホット エンコーディング戦略を採用しており、階層バイナリ ツリー エンコーディングとプロトタイプ学習を活用して、各文字の特徴的で有益な表現を作成します。
このアプローチは、共通の部首と構造を利用することで OOV 文字のゼロショット認識を容易にするだけでなく、視覚的特徴との類似性を計算することで行レベルの認識タスクにも優れており、これは既存の方法に比べて顕著な利点です。
手書き、シーン、ドキュメント、Web、古代テキストなどのさまざまなベンチマークにわたる広範な実験により、従来の漢字またはテキスト認識とゼロショットの両方の漢字またはテキスト認識における HierCode の優位性が実証され、大幅に少ないパラメータで最先端のパフォーマンスを示し、
推論速度が速い。
要約(オリジナル)
Text recognition, especially for complex scripts like Chinese, faces unique challenges due to its intricate character structures and vast vocabulary. Traditional one-hot encoding methods struggle with the representation of hierarchical radicals, recognition of Out-Of-Vocabulary (OOV) characters, and on-device deployment due to their computational intensity. To address these challenges, we propose HierCode, a novel and lightweight codebook that exploits the innate hierarchical nature of Chinese characters. HierCode employs a multi-hot encoding strategy, leveraging hierarchical binary tree encoding and prototype learning to create distinctive, informative representations for each character. This approach not only facilitates zero-shot recognition of OOV characters by utilizing shared radicals and structures but also excels in line-level recognition tasks by computing similarity with visual features, a notable advantage over existing methods. Extensive experiments across diverse benchmarks, including handwritten, scene, document, web, and ancient text, have showcased HierCode’s superiority for both conventional and zero-shot Chinese character or text recognition, exhibiting state-of-the-art performance with significantly fewer parameters and fast inference speed.
arxiv情報
著者 | Yuyi Zhang,Yuanzhi Zhu,Dezhi Peng,Peirong Zhang,Zhenhua Yang,Zhibo Yang,Cong Yao,Lianwen Jin |
発行日 | 2024-03-20 17:20:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google