Research on Multilingual Natural Scene Text Detection Algorithm

要約

自然シーンのテキスト検出は、コンピューター ビジョンにおける重要な課題であり、多言語、多様、複雑なテキスト シナリオに非常に大きな応用の可能性があります。
自然シーンにおける多言語テキストの検出精度が低く、難易度が高いという問題に対処するために、多言語テキスト検出モデルを提案します。
複数の文字セットとさまざまなフォント スタイルを含む多言語テキスト画像によってもたらされる課題に対応して、SFM Swin Transformer 特徴抽出ネットワークを導入して、さまざまな言語にわたる文字とフォントの検出におけるモデルの堅牢性を強化しました。
自然シーンのテキスト画像におけるテキストスケールのかなりの変動と複雑な配置に対処し、適応空間特徴融合モジュールと空間ピラミッドプーリングモジュールを組み込むことにより、AS-HRFPN特徴融合ネットワークを提示します。
特徴融合ネットワークの改善により、テキストのサイズと方向を検出するモデルの機能が強化されました。
多言語シーンのテキスト画像における多様な背景やフォントのバリエーションに対処することは、既存の方法では課題です。
限られた局所受容野は検出性能を妨げます。
これを克服するために、包括的な情報のニーズに合わせて、より効果的なテキスト検出のためにグローバルな特徴を抽出して保存するグローバル セマンティック セグメンテーション ブランチを提案します。
この研究では、現実世界の多言語自然風景テキスト画像データセットを収集・構築し、包括的な実験と分析を実施しました。
実験結果は、提案されたアルゴリズムが 85.02\% の F 値を達成し、これはベースライン モデルより 4.71\% 高いことを示しています。
また、アプローチの一般性を検証するために、MSRA-TD500、ICDAR2017MLT、および ICDAR2015 データセットに対して広範なデータセット間検証を実施しました。
コードとデータセットは https://github.com/wangmelon/CEMLT にあります。

要約(オリジナル)

Natural scene text detection is a significant challenge in computer vision, with tremendous potential applications in multilingual, diverse, and complex text scenarios. We propose a multilingual text detection model to address the issues of low accuracy and high difficulty in detecting multilingual text in natural scenes. In response to the challenges posed by multilingual text images with multiple character sets and various font styles, we introduce the SFM Swin Transformer feature extraction network to enhance the model’s robustness in detecting characters and fonts across different languages. Dealing with the considerable variation in text scales and complex arrangements in natural scene text images, we present the AS-HRFPN feature fusion network by incorporating an Adaptive Spatial Feature Fusion module and a Spatial Pyramid Pooling module. The feature fusion network improvements enhance the model’s ability to detect text sizes and orientations. Addressing diverse backgrounds and font variations in multilingual scene text images is a challenge for existing methods. Limited local receptive fields hinder detection performance. To overcome this, we propose a Global Semantic Segmentation Branch, extracting and preserving global features for more effective text detection, aligning with the need for comprehensive information. In this study, we collected and built a real-world multilingual natural scene text image dataset and conducted comprehensive experiments and analyses. The experimental results demonstrate that the proposed algorithm achieves an F-measure of 85.02\%, which is 4.71\% higher than the baseline model. We also conducted extensive cross-dataset validation on MSRA-TD500, ICDAR2017MLT, and ICDAR2015 datasets to verify the generality of our approach. The code and dataset can be found at https://github.com/wangmelon/CEMLT.

arxiv情報

著者 Tao Wang
発行日 2024-01-05 08:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク