Handwritten Text Recognition: A Survey

要約

手書きのテキスト認識(HTR)は、パターン認識と機械学習の中で重要な分野になりました。アプリケーションは、最新のデータ入力とアクセシビリティソリューションに歴史的な文書の保存にまたがっています。
HTRの複雑さは、手書きの高い変動性にあり、これにより、堅牢な認識システムを開発することが困難になります。
この調査では、HTRモデルの進化を調べ、初期のヒューリスティックベースのアプローチから、深い学習技術を活用する現代の最先端のニューラルモデルへの進行を追跡します。
フィールドの範囲も拡張されており、最初は最近のエンドツーエンドのドキュメントレベルのアプローチに進行する単語レベルのコンテンツのみを認識することができました。
私たちの論文は、既存の作業を2つの主要レベルの認識に分類します:(1)\ emph {up to Line-level}、単語とラインの認識を含み、(2)\ emph {beyond level}、パラグラフとドキュメントに対処します –
レベルの課題。
研究方法論、ベンチマークの最近の進歩、フィールドの主要なデータセット、および文献で報告された結果の議論を調べる統一されたフレームワークを提供します。
最後に、私たちは、研究者と実践者にフィールドを進めるためのロードマップを装備することを目指して、迫りつつある研究の課題を特定し、将来の方向性を有望で概説します。

要約(オリジナル)

Handwritten Text Recognition (HTR) has become an essential field within pattern recognition and machine learning, with applications spanning historical document preservation to modern data entry and accessibility solutions. The complexity of HTR lies in the high variability of handwriting, which makes it challenging to develop robust recognition systems. This survey examines the evolution of HTR models, tracing their progression from early heuristic-based approaches to contemporary state-of-the-art neural models, which leverage deep learning techniques. The scope of the field has also expanded, with models initially capable of recognizing only word-level content progressing to recent end-to-end document-level approaches. Our paper categorizes existing work into two primary levels of recognition: (1) \emph{up to line-level}, encompassing word and line recognition, and (2) \emph{beyond line-level}, addressing paragraph- and document-level challenges. We provide a unified framework that examines research methodologies, recent advances in benchmarking, key datasets in the field, and a discussion of the results reported in the literature. Finally, we identify pressing research challenges and outline promising future directions, aiming to equip researchers and practitioners with a roadmap for advancing the field.

arxiv情報

著者 Carlos Garrido-Munoz,Antonio Rios-Vila,Jorge Calvo-Zaragoza
発行日 2025-02-12 13:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク