Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts

要約

タイトル:Cleansing Jewel:Google OCRでスキャンされたチベットの古文書を用いたニューラル綴り修正モデル

要約:

– 人文学の研究者は、過去の歴史、宗教、社会政治構造を研究するために古文書に強く頼っている。
– これらの貴重な文書をOCR技術を使用してデジタル化するために多くの努力が投入されているが、大部分の文書は年月が経つにつれて汚れがついてしまっており、古文書の場合はOCRプログラムで薄れたグラフやページの汚れを捕捉することは望めない。
– 本研究では、Google OCRでスキャンされたチベットの古文書に基づくニューラル綴り修正モデルを提案し、OCRによって作成されたノイズの多い出力を自動修正する。
– この論文は、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分かれている。
– 最初に、私たちは生のチベット語電子テキストコーパスを2つの構造化データフレームセットに特徴エンジニアリングしました。 1つはペアのおもちゃのデータ、もう1つはペアの実データです。
– 次に、私たちは信頼度スコアメカニズムをTransformerアーキテクチャに実装してスペル修正タスクを実行しました。損失率と文字エラー率に基づくと、Transformer + Confidenceスコアメカニズムアーキテクチャは、Transformer、LSTM-2-LSTM、およびGRU-2-GRUアーキテクチャよりも優れた性能を示します。
– 最後に、モデルの堅牢性を検証するために、誤ったトークンを分析し、モデル内のAttentionおよびSelf-Attentionヒートマップを可視化しました。

要約(オリジナル)

Scholars in the humanities rely heavily on ancient manuscripts to study history, religion, and socio-political structures in the past. Many efforts have been devoted to digitizing these precious manuscripts using OCR technology, but most manuscripts were blemished over the centuries so that an Optical Character Recognition (OCR) program cannot be expected to capture faded graphs and stains on pages. This work presents a neural spelling correction model built on Google OCR-ed Tibetan Manuscripts to auto-correct OCR-ed noisy output. This paper is divided into four sections: dataset, model architecture, training and analysis. First, we feature-engineered our raw Tibetan etext corpus into two sets of structured data frames — a set of paired toy data and a set of paired real data. Then, we implemented a Confidence Score mechanism into the Transformer architecture to perform spelling correction tasks. According to the Loss and Character Error Rate, our Transformer + Confidence score mechanism architecture proves to be superior to Transformer, LSTM-2-LSTM and GRU-2-GRU architectures. Finally, to examine the robustness of our model, we analyzed erroneous tokens, visualized Attention and Self-Attention heatmaps in our model.

arxiv情報

著者 Queenie Luo,Yung-Sung Chuang
発行日 2023-04-07 00:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク