Scene Text Recognition with Permuted Autoregressive Sequence Models

要約

コンテキストアウェアSTRメソッドは通常、内部自己回帰(AR)言語モデル(LM)を使用します。
ARモデルの固有の制限により、外部LMを使用する2段階の方法が動機付けられました。
入力画像に対する外部LMの条件付き独立により、誤って正しい予測が修正され、重大な非効率が生じる可能性があります。
私たちのメソッドPARSeqは、順列言語モデリングを使用して、重みが共有された内部ARLMのアンサンブルを学習します。
これは、コンテキストフリーの非ARおよびコンテキストアウェアAR推論と、双方向コンテキストを使用した反復的な改良を統合します。
合成トレーニングデータを使用して、PARSeqはSTRベンチマーク(91.9%の精度)とより挑戦的なデータセットで最先端の(SOTA)結果を達成します。
実際のデータでトレーニングすると、新しいSOTA結果(96.0%の精度)が確立されます。
PARSeqは、そのシンプルで統一された構造と並列トークン処理により、精度とパラメーターカウント、FLOPS、およびレイテンシーの点で最適です。
注目を集めているため、実世界の画像で一般的な任意の向きのテキストに対して堅牢です。
コード、事前トレーニング済みの重み、およびデータは、https://github.com/baudm/parseqで入手できます。

要約(オリジナル)

Context-aware STR methods typically use internal autoregressive (AR) language models (LM). Inherent limitations of AR models motivated two-stage methods which employ an external LM. The conditional independence of the external LM on the input image may cause it to erroneously rectify correct predictions, leading to significant inefficiencies. Our method, PARSeq, learns an ensemble of internal AR LMs with shared weights using Permutation Language Modeling. It unifies context-free non-AR and context-aware AR inference, and iterative refinement using bidirectional context. Using synthetic training data, PARSeq achieves state-of-the-art (SOTA) results in STR benchmarks (91.9% accuracy) and more challenging datasets. It establishes new SOTA results (96.0% accuracy) when trained on real data. PARSeq is optimal on accuracy vs parameter count, FLOPS, and latency because of its simple, unified structure and parallel token processing. Due to its extensive use of attention, it is robust on arbitrarily-oriented text which is common in real-world images. Code, pretrained weights, and data are available at: https://github.com/baudm/parseq.

arxiv情報

著者 Darwin Bautista,Rowel Atienza
発行日 2022-07-14 14:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク