要約
シーンテキスト認識 (STR) は、テキストのスタイル、形状、背景が異なるため、困難なタスクです。
言語情報を組み込むことは、STR モデルの堅牢性を強化する効果的な方法です。
既存の手法は、並べ替え言語モデリング (PLM) またはマスク言語モデリング (MLM) に依存して、並べ替え自己回帰 (AR) LM トレーニングのアンサンブルまたは反復非自己回帰 (NAR) デコード手順のいずれかを介して、コンテキスト情報を暗黙的に学習します。
ただし、これらの方法には限界があります。PLM の AR デコードでは将来の文字に関する情報が欠如しますが、MLM ではテキスト全体のグローバル情報が提供されますが、予測される各文字間の依存関係が無視されます。
この論文では、STR 用のマスクおよび並べ替え暗黙的コンテキスト学習ネットワークを提案します。これは、PLM と MLM を単一のデコード アーキテクチャ内で統合し、両方のアプローチの利点を継承します。
PLM のトレーニング手順を利用し、MLM を統合するために、特定の数のマスク トークンを導入することで語長情報をデコード プロセスに組み込みます。
実験結果は、AR と NAR の両方のデコード手順を使用して、私たちが提案したモデルが標準ベンチマークで最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Scene Text Recognition (STR) is a challenging task due to variations in text style, shape, and background. Incorporating linguistic information is an effective way to enhance the robustness of STR models. Existing methods rely on permuted language modeling (PLM) or masked language modeling (MLM) to learn contextual information implicitly, either through an ensemble of permuted autoregressive (AR) LMs training or iterative non-autoregressive (NAR) decoding procedure. However, these methods exhibit limitations: PLM’s AR decoding results in the lack of information about future characters, while MLM provides global information of the entire text but neglects dependencies among each predicted character. In this paper, we propose a Masked and Permuted Implicit Context Learning Network for STR, which unifies PLM and MLM within a single decoding architecture, inheriting the advantages of both approaches. We utilize the training procedure of PLM, and to integrate MLM, we incorporate word length information into the decoding process by introducing specific numbers of mask tokens. Experimental results demonstrate that our proposed model achieves state-of-the-art performance on standard benchmarks using both AR and NAR decoding procedures.
arxiv情報
著者 | Xiaomeng Yang,Zhi Qiao,Jin Wei,Yu Zhou,Ye Yuan,Zhilong Ji,Dongbao Yang,Weiping Wang |
発行日 | 2023-05-25 15:31:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google