CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

要約

数式の認識は、複雑な構造とさまざまな数式表記により、大きな課題を抱えています。
数式認識モデルは継続的に進歩していますが、BLEU や編集距離など、これらのモデルで採用されている評価指標には依然として顕著な制限があります。
彼らは、同じ式でも多様な表現があり、訓練データの分布に非常に敏感であるため、式の認識評価に不公平が生じるという事実を見落としています。
この目的のために、LaTex レベルのメトリクス スコアではなく画像レベルのメトリクス スコアを設計することで評価の客観性を確保する、Character Detection Matching (CDM) メトリクスを提案します。
具体的には、CDM は、モデルによって予測された LaTeX 式とグラウンド トゥルースの LaTeX 式の両方を画像形式の式にレンダリングし、視覚的特徴抽出および位置特定技術を使用して、空間位置情報を組み込んだ正確な文字レベルのマッチングを実現します。
このような空間認識型の文字マッチング方法は、テキストベースの文字マッチングのみに依存する以前の BLEU および編集距離メトリクスと比較して、より正確かつ公平な評価を提供します。
実験的に、CDM、BLEU、および ExpRate メトリクスを使用してさまざまな数式認識モデルを評価しました。
彼らの結果は、CDM が人間の評価基準とより密接に一致しており、多様な数式表現によって引き起こされる不一致を排除することで、さまざまなモデル間でより公平な比較を提供することを示しています。

要約(オリジナル)

Formula recognition presents significant challenges due to the complicated structure and varied notation of mathematical expressions. Despite continuous advancements in formula recognition models, the evaluation metrics employed by these models, such as BLEU and Edit Distance, still exhibit notable limitations. They overlook the fact that the same formula has diverse representations and is highly sensitive to the distribution of training data, thereby causing the unfairness in formula recognition evaluation. To this end, we propose a Character Detection Matching (CDM) metric, ensuring the evaluation objectivity by designing a image-level rather than LaTex-level metric score. Specifically, CDM renders both the model-predicted LaTeX and the ground-truth LaTeX formulas into image-formatted formulas, then employs visual feature extraction and localization techniques for precise character-level matching, incorporating spatial position information. Such a spatially-aware and character-matching method offers a more accurate and equitable evaluation compared with previous BLEU and Edit Distance metrics that rely solely on text-based character matching. Experimentally, we evaluated various formula recognition models using CDM, BLEU, and ExpRate metrics. Their results demonstrate that the CDM aligns more closely with human evaluation standards and provides a fairer comparison across different models by eliminating discrepancies caused by diverse formula representations.

arxiv情報

著者 Bin Wang,Fan Wu,Linke Ouyang,Zhuangcheng Gu,Rui Zhang,Renqiu Xia,Bo Zhang,Conghui He
発行日 2024-09-05 16:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク