Syntax-Aware Network for Handwritten Mathematical Expression Recognition

要約

手書き数式認識(HMER)は、多くの応用が期待されるチャレンジングな課題である。最近のHMERの手法は、エンコーダ・デコーダのアーキテクチャにより、優れた性能を達成している。しかし、これらの手法は「ある文字から別の文字へ」予測するというパラダイムに固執しており、複雑な構造の数式や手書きの崩れによってどうしても予測誤差が発生してしまう。本論文では、エンコーダ・デコーダのネットワークに初めて構文情報を組み込んだ、シンプルで効率的なHMERの手法を提案する。具体的には、各表現のLaTeXマークアップ列を構文解析木に変換するための文法規則を提示し、次にマークアップ列予測を木の走査過程としてディープニューラルネットワークでモデル化する。このように、提案手法は式の構文コンテキストを効果的に記述することができ、HMERの構造予測誤差を緩和することができる。3つのベンチマークデータセットに対する実験により、本手法が先行技術よりも優れた認識性能を達成することを実証する。さらに、本手法の有効性を検証するために、1万人の手書き作家から取得した10万枚の手書き数式画像からなる大規模データセットを作成する。本研究のソースコード、新しいデータセット、および事前に学習したモデルは一般に公開される予定である。

要約(オリジナル)

Handwritten mathematical expression recognition (HMER) is a challenging task that has many potential applications. Recent methods for HMER have achieved outstanding performance with an encoder-decoder architecture. However, these methods adhere to the paradigm that the prediction is made ‘from one character to another’, which inevitably yields prediction errors due to the complicated structures of mathematical expressions or crabbed handwritings. In this paper, we propose a simple and efficient method for HMER, which is the first to incorporate syntax information into an encoder-decoder network. Specifically, we present a set of grammar rules for converting the LaTeX markup sequence of each expression into a parsing tree; then, we model the markup sequence prediction as a tree traverse process with a deep neural network. In this way, the proposed method can effectively describe the syntax context of expressions, alleviating the structure prediction errors of HMER. Experiments on three benchmark datasets demonstrate that our method achieves better recognition performance than prior arts. To further validate the effectiveness of our method, we create a large-scale dataset consisting of 100k handwritten mathematical expression images acquired from ten thousand writers. The source code, new dataset, and pre-trained models of this work will be publicly available.

arxiv情報

著者 Ye Yuan,Xiao Liu,Wondimu Dikubab,Hui Liu,Zhilong Ji,Zhongqin Wu,Xiang Bai
発行日 2022-06-07 06:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク