A3S: Adversarial learning of semantic representations for Scene-Text Spotting

要約

シーン テキスト スポッティングは、自然シーン画像上のテキスト領域を予測し、そのテキスト文字を同時に認識するタスクです。
その用途の広さから、近年注目を集めています。
既存の研究は、主にテキスト認識ではなく、テキスト領域検出の改善に焦点を当ててきました。
したがって、検出精度は向上しますが、エンドツーエンドの精度は不十分です。
自然の風景の画像のテキストは、ランダムな文字列ではなく、意味のある文字列、単語である傾向があります。
したがって、テキスト認識を含むエンドツーエンドの精度を向上させるために、シーン テキスト スポッティング (A3S) の意味表現の敵対的学習を提案します。
A3S は、既存の視覚的特徴に基づいてテキスト認識を実行するだけでなく、検出されたテキスト領域の意味的特徴を同時に予測します。
公開されているデータセットの実験結果は、提案された方法が他の方法よりも優れた精度を達成することを示しています。

要約(オリジナル)

Scene-text spotting is a task that predicts a text area on natural scene images and recognizes its text characters simultaneously. It has attracted much attention in recent years due to its wide applications. Existing research has mainly focused on improving text region detection, not text recognition. Thus, while detection accuracy is improved, the end-to-end accuracy is insufficient. Texts in natural scene images tend to not be a random string of characters but a meaningful string of characters, a word. Therefore, we propose adversarial learning of semantic representations for scene text spotting (A3S) to improve end-to-end accuracy, including text recognition. A3S simultaneously predicts semantic features in the detected text area instead of only performing text recognition based on existing visual features. Experimental results on publicly available datasets show that the proposed method achieves better accuracy than other methods.

arxiv情報

著者 Masato Fujitake
発行日 2023-02-21 12:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク