要約
特徴抽出に DCNN を活用し、シーケンス認識に双方向長短期記憶 (BLSTM) とコネクショニスト時間分類 (CTC) 損失関数を利用して、ゼロからトレーニングされたエンドツーエンドのセグメンテーションフリーの深層学習モデルが提案されています。
KHATT データベース。
トレーニング フェーズでは、テスト データセットの文字レベルでの認識率が 84%、単語レベルで 71% という顕著な結果が得られ、行レベルでのみセグメンテーションなしで動作する画像ベースのシーケンス認識フレームワークが確立されました。
KFUPM 手書きアラビア語テキスト (KHATT) データベースの分析と前処理についても説明します。
最後に、フィルタリング、変換、ラインセグメンテーションなどの高度な画像処理技術が実装されています。
この研究の重要性は、その幅広い用途によって強調されています。
銀行業務などの分野でのデジタル化、文書化、アーカイブ、テキスト翻訳が含まれます。
さらに、AHR は、画像を検索可能にし、情報検索機能を強化し、簡単な編集を可能にするための極めて重要なツールとして機能します。
この機能により、アラビア語データの整理や操作などのタスクに必要な時間と労力が大幅に削減されます。
要約(オリジナル)
An end-to-end, segmentation-free, deep learning model trained from scratch is proposed, leveraging DCNN for feature extraction, alongside Bidirectional Long-Short Term Memory (BLSTM) for sequence recognition and Connectionist Temporal Classification (CTC) loss function on the KHATT database. The training phase yields remarkable results 84% recognition rate on the test dataset at the character level and 71% on the word level, establishing an image-based sequence recognition framework that operates without segmentation only at the line level. The analysis and preprocessing of the KFUPM Handwritten Arabic TexT (KHATT) database are also presented. Finally, advanced image processing techniques, including filtering, transformation, and line segmentation are implemented. The importance of this work is highlighted by its wide-ranging applications. Including digitizing, documentation, archiving, and text translation in fields such as banking. Moreover, AHR serves as a pivotal tool for making images searchable, enhancing information retrieval capabilities, and enabling effortless editing. This functionality significantly reduces the time and effort required for tasks such as Arabic data organization and manipulation.
arxiv情報
著者 | Sondos Aabed,Ahmad Khairaldin |
発行日 | 2024-06-21 17:42:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google