CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition

要約

シーン テキスト認識は、視覚とテキストを含むクロスモーダル タスクとして、コンピューター ビジョンの重要な研究テーマです。
既存の手法のほとんどは、視覚認識を最適化するために言語モデルを使用して意味情報を抽出します。
ただし、視覚的な手がかりのガイダンスはセマンティック マイニングのプロセスでは無視されるため、不規則なシーン テキストを認識するアルゴリズムのパフォーマンスが制限されます。
この問題に取り組むために、セマンティック マイニング プロセスに視覚的な手がかりを組み込む、不規則なシーンのテキスト認識のための新しいクロスモーダル フュージョン ネットワーク (CMFN) を提案します。
具体的には、CMFN は、位置自己拡張エンコーダー、視覚認識ブランチ、および反復意味認識ブランチで構成されます。
位置自己拡張エンコーダは、視覚認識ブランチと反復意味認識ブランチの両方に文字シーケンス位置エンコードを提供します。
視覚認識ブランチは、CNN によって抽出された視覚特徴と位置自己拡張エンコーダーによって提供される位置エンコード情報に基づいて視覚認識を実行します。
言語認識モジュールとクロスモーダル フュージョン ゲートで構成される反復意味認識ブランチは、人間がシーン テキストを認識する方法をシミュレートし、テキスト認識のためのクロスモーダル視覚キューを統合します。
実験は、提案された CMFN アルゴリズムが最先端のアルゴリズムと同等のパフォーマンスを達成することを実証し、その有効性を示しています。

要約(オリジナル)

Scene text recognition, as a cross-modal task involving vision and text, is an important research topic in computer vision. Most existing methods use language models to extract semantic information for optimizing visual recognition. However, the guidance of visual cues is ignored in the process of semantic mining, which limits the performance of the algorithm in recognizing irregular scene text. To tackle this issue, we propose a novel cross-modal fusion network (CMFN) for irregular scene text recognition, which incorporates visual cues into the semantic mining process. Specifically, CMFN consists of a position self-enhanced encoder, a visual recognition branch and an iterative semantic recognition branch. The position self-enhanced encoder provides character sequence position encoding for both the visual recognition branch and the iterative semantic recognition branch. The visual recognition branch carries out visual recognition based on the visual features extracted by CNN and the position encoding information provided by the position self-enhanced encoder. The iterative semantic recognition branch, which consists of a language recognition module and a cross-modal fusion gate, simulates the way that human recognizes scene text and integrates cross-modal visual cues for text recognition. The experiments demonstrate that the proposed CMFN algorithm achieves comparable performance to state-of-the-art algorithms, indicating its effectiveness.

arxiv情報

著者 Jinzhi Zheng,Ruyi Ji,Libo Zhang,Yanjun Wu,Chen Zhao
発行日 2024-01-18 15:05:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク