UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

要約

この論文では UniMER データセットを紹介し、複雑な現実世界のシナリオを対象とした数式認識 (MER) に関する最初の研究を示しています。
UniMER データセットには、大規模なトレーニング セットである UniMER-1M が含まれており、高品質で堅牢なモデルをトレーニングするための 100 万個のトレーニング インスタンスを備えた前例のない規模と多様性を提供します。
さらに、UniMER は、綿密に設計された多様なテスト セットである UniMER-Test を備えており、現実世界のシナリオで見られるさまざまな式分布をカバーし、より包括的で公平な評価を提供します。
UniMER データセットをより有効に活用するために、この論文では、数式認識の特性に合わせたユニバーサル数式認識ネットワーク (UniMERNet) を提案しています。
UniMERNet は、詳細を認識したローカル コンテキスト機能を組み込んだ慎重に設計されたエンコーダーと、パフォーマンスを加速するために最適化されたデコーダーで構成されています。
UniMER-1M データセットと UniMERNet を使用して行われた広範な実験により、大規模な UniMER-1M データセットでのトレーニングにより、以前のすべてのデータセットを大幅に上回る、より一般化可能な数式認識モデルを生成できることが実証されました。
さらに、UniMERNet の導入により、数式認識におけるモデルのパフォーマンスが向上し、より高い精度と速度が実現されました。
すべてのデータ、モデル、コードは https://github.com/opendatalab/UniMERNet で入手できます。

要約(オリジナル)

The paper introduces the UniMER dataset, marking the first study on Mathematical Expression Recognition (MER) targeting complex real-world scenarios. The UniMER dataset includes a large-scale training set, UniMER-1M, which offers unprecedented scale and diversity with one million training instances to train high-quality, robust models. Additionally, UniMER features a meticulously designed, diverse test set, UniMER-Test, which covers a variety of formula distributions found in real-world scenarios, providing a more comprehensive and fair evaluation. To better utilize the UniMER dataset, the paper proposes a Universal Mathematical Expression Recognition Network (UniMERNet), tailored to the characteristics of formula recognition. UniMERNet consists of a carefully designed encoder that incorporates detail-aware and local context features, and an optimized decoder for accelerated performance. Extensive experiments conducted using the UniMER-1M dataset and UniMERNet demonstrate that training on the large-scale UniMER-1M dataset can produce a more generalizable formula recognition model, significantly outperforming all previous datasets. Furthermore, the introduction of UniMERNet enhances the model’s performance in formula recognition, achieving higher accuracy and speeds. All data, models, and code are available at https://github.com/opendatalab/UniMERNet.

arxiv情報

著者 Bin Wang,Zhuangcheng Gu,Guang Liang,Chao Xu,Bo Zhang,Botian Shi,Conghui He
発行日 2024-09-05 15:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク