HTR-JAND: Handwritten Text Recognition with Joint Attention Network and Knowledge Distillation

要約

深層学習の大幅な進歩にも関わらず、現在の手書きテキスト認識 (HTR) システムは、多様な書き方、テキストの品質の低下、複数の言語や期間にわたる計算効率の要件など、歴史文書に固有の複雑さに苦戦しています。
この論文では、高度な特徴抽出と知識蒸留を組み合わせた効率的な HTR フレームワークである HTR-JAND (HTR-JAND: Joint Attendant Network and Knowledge Distillation による手書きテキスト認識) を紹介します。
私たちのアーキテクチャには 3 つの重要なコンポーネントが組み込まれています: (1) FullGatedConv2d 層と適応特徴抽出のための Squeeze-and-Exciltation ブロックを統合した CNN アーキテクチャ、(2) マルチヘッド セルフ アテンションとプロキシマ アテンションを融合して堅牢なシーケンス モデリングを実現する複合アテンション メカニズム、
(3) カリキュラムベースのトレーニングを通じて精度を維持しながら、効率的なモデル圧縮を可能にする知識蒸留フレームワーク。
HTR-JAND フレームワークは、カリキュラム学習、合成データ生成、およびクロスデータセットの知識伝達のためのマルチタスク学習を組み合わせた多段階トレーニング アプローチを実装します。
コンテキストを認識した T5 後処理によって認識精度が向上し、特に歴史的文書に効果的です。
包括的な評価により、HTR-JAND の有効性が実証され、IAM、RIMES、Bentham データセットでそれぞれ 1.23\%、1.02\%、2.02\% という最先端の文字誤り率 (CER) を達成しました。
当社の Student モデルは、効率的な知識伝達により競争力のあるパフォーマンスを維持しながら、48\% のパラメータ削減 (0.75M 対 1.5M パラメータ) を達成します。
ソース コードと事前トレーニングされたモデルは、\href{https://github.com/DocumentRecognitionModels/HTR-JAND}{Github} で入手できます。

要約(オリジナル)

Despite significant advances in deep learning, current Handwritten Text Recognition (HTR) systems struggle with the inherent complexity of historical documents, including diverse writing styles, degraded text quality, and computational efficiency requirements across multiple languages and time periods. This paper introduces HTR-JAND (HTR-JAND: Handwritten Text Recognition with Joint Attention Network and Knowledge Distillation), an efficient HTR framework that combines advanced feature extraction with knowledge distillation. Our architecture incorporates three key components: (1) a CNN architecture integrating FullGatedConv2d layers with Squeeze-and-Excitation blocks for adaptive feature extraction, (2) a Combined Attention mechanism fusing Multi-Head Self-Attention with Proxima Attention for robust sequence modeling, and (3) a Knowledge Distillation framework enabling efficient model compression while preserving accuracy through curriculum-based training. The HTR-JAND framework implements a multi-stage training approach combining curriculum learning, synthetic data generation, and multi-task learning for cross-dataset knowledge transfer. We enhance recognition accuracy through context-aware T5 post-processing, particularly effective for historical documents. Comprehensive evaluations demonstrate HTR-JAND’s effectiveness, achieving state-of-the-art Character Error Rates (CER) of 1.23\%, 1.02\%, and 2.02\% on IAM, RIMES, and Bentham datasets respectively. Our Student model achieves a 48\% parameter reduction (0.75M versus 1.5M parameters) while maintaining competitive performance through efficient knowledge transfer. Source code and pre-trained models are available at \href{https://github.com/DocumentRecognitionModels/HTR-JAND}{Github}.

arxiv情報

著者 Mohammed Hamdan,Abderrahmane Rahiche,Mohamed Cheriet
発行日 2024-12-24 16:08:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク