UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

要約

この論文では、複雑な現実世界のシナリオに向けた数式認識 (MER) に関する最初の研究を提供する UniMER データセットを紹介します。
UniMER データセットは、100 万のトレーニング インスタンスを備えた前例のない規模と多様性を提供する大規模トレーニング セット UniMER-1M と、現実世界のシナリオで普及している多様な数式分布を反映する綿密に設計されたテスト セット UniMER-Test で構成されています。
したがって、UniMER データセットを使用すると、堅牢で高精度の MER モデルのトレーニングとモデルのパフォーマンスの包括的な評価が可能になります。
さらに、実用的なシナリオで MER を強化するために設計された革新的なフレームワークである、Universal Mathematical Expression Recognition Network (UniMERNet) を紹介します。
UniMERNet には、さまざまな長さの式を効率的に処理する長さ認識モジュールが組み込まれているため、モデルが複雑な数式をより正確に処理できるようになります。
さらに、UniMERNet は、UniMER-1M データと画像拡張技術を採用して、さまざまなノイズ条件下でのモデルの堅牢性を向上させています。
私たちの広範な実験により、UniMERNet が既存の MER モデルよりも優れたパフォーマンスを示し、さまざまなシナリオで新しいベンチマークを設定し、現実世界のアプリケーションで優れた認識品質を保証することが実証されました。
データセットとモデルは https://github.com/opendatalab/UniMERNet で入手できます。

要約(オリジナル)

This paper presents the UniMER dataset to provide the first study on Mathematical Expression Recognition (MER) towards complex real-world scenarios. The UniMER dataset consists of a large-scale training set UniMER-1M offering an unprecedented scale and diversity with one million training instances and a meticulously designed test set UniMER-Test that reflects a diverse range of formula distributions prevalent in real-world scenarios. Therefore, the UniMER dataset enables the training of a robust and high-accuracy MER model and comprehensive evaluation of model performance. Moreover, we introduce the Universal Mathematical Expression Recognition Network (UniMERNet), an innovative framework designed to enhance MER in practical scenarios. UniMERNet incorporates a Length-Aware Module to process formulas of varied lengths efficiently, thereby enabling the model to handle complex mathematical expressions with greater accuracy. In addition, UniMERNet employs our UniMER-1M data and image augmentation techniques to improve the model’s robustness under different noise conditions. Our extensive experiments demonstrate that UniMERNet outperforms existing MER models, setting a new benchmark in various scenarios and ensuring superior recognition quality in real-world applications. The dataset and model are available at https://github.com/opendatalab/UniMERNet.

arxiv情報

著者 Bin Wang,Zhuangcheng Gu,Chao Xu,Bo Zhang,Botian Shi,Conghui He
発行日 2024-04-23 17:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク