Character Recognition in Byzantine Seals with Deep Neural Networks

要約

印鑑は小さなコインの形をした工芸品で、主に鉛でできており、文字を封印するために紐で留められています。
この研究は、ビザンチン印章画像上のテキストの自動読み取りに向けた最初の試みを示しています。ビザンチン印章は通常、表面に図像、裏面にギリシャ語のテキストで装飾されています。
テキストには、送信者の名前、ビザンツ貴族における地位、祈りの要素が含まれる場合があります。
テキストと図像はどちらも電子的に活用されるのを待っている貴重な文学資料であるため、アザラシの画像を解釈するためのコンピュータ化されたシステムの開発が最も重要です。
したがって、この作業の貢献は、ビザンチンの印影を転写するための、深い 2 段階の文字読み取りパイプラインです。
最初のディープ畳み込みニューラル ネットワーク (CNN) は、シール内の文字を検出します (文字位置特定)。
2 番目の畳み込みネットワークは、ローカライズされた文字 (文字分類) を読み取ります。
最後に、2 つのネットワーク出力を後処理することで、外交印章の転写が提供されます。
各 CNN を単独で、および両方の CNN を組み合わせた実験的評価を提供します。
すべてのパフォーマンスは相互検証によって評価されます。
文字位置特定は、0.9 を超える平均精度 (mAP@0.5) を達成します。
グラウンド トゥルース境界ボックスから切り取られた文字の分類では、0.92 を超えるトップ 1 の精度が達成されます。
エンドツーエンドの評価は、同様のタスクの SoTA と比較した場合に、提案されたアプローチの効率性を示します。

要約(オリジナル)

Seals are small coin-shaped artifacts, mostly made of lead, held with strings to seal letters. This work presents the first attempt towards automatic reading of text on Byzantine seal images.Byzantine seals are generally decorated with iconography on the obverse side and Greek text on the reverse side. Text may include the sender’s name, position in the Byzantine aristocracy, and elements of prayers. Both text and iconography are precious literary sources that wait to be exploited electronically, so the development of computerized systems for interpreting seals images is of paramount importance. This work’s contribution is hence a deep, two-stages, character reading pipeline for transcribing Byzantine seal images. A first deep convolutional neural network (CNN) detects characters in the seal (character localization). A second convolutional network reads the localized characters (character classification). Finally, a diplomatic transcription of the seal is provided by post-processing the two network outputs. We provide an experimental evaluation of each CNN in isolation and both CNNs in combination. All performances are evaluated by cross-validation. Character localization achieves a mean average precision (mAP@0.5) greater than 0.9. Classification of characters cropped from ground truth bounding boxes achieves Top-1 accuracy greater than 0.92. End-to-end evaluation shows the efficiency of the proposed approach when compared to the SoTA for similar tasks.

arxiv情報

著者 Théophile Rageau,Laurence Likforman-Sulem,Attilio Fiandrotti,Victoria Eyharabide,Béatrice Caseau,Jean-Claude Cheynet
発行日 2024-01-19 14:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク