PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer

要約

手書き数式認識 (HMER) は、デジタル化された教育や自動化されたオフィスなど、人間とマシンの対話シナリオに幅広く応用できます。
最近では、表現画像の LaTeX シーケンスを直接予測することでこのタスクに対処するために、エンコーダ/デコーダ アーキテクチャを備えたシーケンスベースのモデルが一般的に採用されています。
しかし、これらの手法は LaTeX が提供する構文規則を暗黙的に学習するだけであり、複雑な構造関係や多様な手書きスタイルにより、記号間の位置や階層関係を記述できない可能性があります。
この課題を克服するために、HMER 用の位置フォレスト トランスフォーマー (PosFormer) を提案します。これは、表情認識と位置認識という 2 つのタスクを共同で最適化し、位置を意識したシンボル特徴表現学習を明示的に有効にします。
具体的には、まず数式をフォレスト構造としてモデル化し、シンボル間の相対的な位置関係を解析する位置フォレストを設計します。
追加の注釈を必要とせずに、各シンボルにはフォレスト内の位置識別子が割り当てられ、その相対的な空間位置を示します。
第 2 に、シーケンスベースのデコーダ アーキテクチャで HMER のアテンションを正確に捕捉するための暗黙的なアテンション修正モジュールを提案します。
広範な実験により、PosFormer の優位性が検証され、単一ライン CROHME 2014/2016/2019、マルチ
ライン M2E と複雑な MNE データセットをそれぞれ追加の遅延や計算コストなしで利用できます。
コードは https://github.com/SJTU-DeepVisionLab/PosFormer で入手できます。

要約(オリジナル)

Handwritten Mathematical Expression Recognition (HMER) has wide applications in human-machine interaction scenarios, such as digitized education and automated offices. Recently, sequence-based models with encoder-decoder architectures have been commonly adopted to address this task by directly predicting LaTeX sequences of expression images. However, these methods only implicitly learn the syntax rules provided by LaTeX, which may fail to describe the position and hierarchical relationship between symbols due to complex structural relations and diverse handwriting styles. To overcome this challenge, we propose a position forest transformer (PosFormer) for HMER, which jointly optimizes two tasks: expression recognition and position recognition, to explicitly enable position-aware symbol feature representation learning. Specifically, we first design a position forest that models the mathematical expression as a forest structure and parses the relative position relationships between symbols. Without requiring extra annotations, each symbol is assigned a position identifier in the forest to denote its relative spatial position. Second, we propose an implicit attention correction module to accurately capture attention for HMER in the sequence-based decoder architecture. Extensive experiments validate the superiority of PosFormer, which consistently outperforms the state-of-the-art methods 2.03%/1.22%/2.00%, 1.83%, and 4.62% gains on the single-line CROHME 2014/2016/2019, multi-line M2E, and complex MNE datasets, respectively, with no additional latency or computational cost. Code is available at https://github.com/SJTU-DeepVisionLab/PosFormer.

arxiv情報

著者 Tongkun Guan,Chengyu Lin,Wei Shen,Xiaokang Yang
発行日 2024-07-10 15:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク