Contextual Text Block Detection towards Scene Text Understanding

要約

ほとんどの既存のシーンテキスト検出器は、コンテキスト情報が欠落しているために部分的なテキストメッセージのみをキャプチャする文字または単語の検出に重点を置いています。
シーン内のテキストをよりよく理解するために、1つまたは複数の統合テキストユニット(文字、単語、フレーズなど)で構成されるコンテキストテキストブロック(CTB)を自然な読み取り順序で検出し、特定の完全なテキストメッセージを送信することがより望ましいです。

このホワイトペーパーでは、シーン内のテキストをよりよく理解するためにCTBを検出する新しいセットアップであるコンテキストテキスト検出について説明します。
最初に統合テキストユニットを検出し、次にそれらをCTBにグループ化する二重検出タスクによって、新しいセットアップを定式化します。
この目的のために、統合テキストユニットをトークンとして扱い、それらを(同じCTBに属する)順序付けられたトークンシーケンスにグループ化する、新しいシーンテキストクラスタリング手法を設計します。
さらに、将来の研究を容易にするために、2つのデータセットSCUT-CTW-ContextとReCTS-Contextを作成します。ここで、各CTBは、統合されたテキスト単位の順序付けられたシーケンスによって適切に注釈が付けられます。
さらに、ローカル精度、継続性、およびグローバル精度でコンテキストテキスト検出を測定する3つのメトリックを紹介します。
広範な実験により、私たちの方法がCTBを正確に検出し、テキストの分類や翻訳などのダウンストリームタスクを効果的に促進することが示されています。
プロジェクトはhttps://sg-vilab.github.io/publication/xue2022contextual/で入手できます。

要約(オリジナル)

Most existing scene text detectors focus on detecting characters or words that only capture partial text messages due to missing contextual information. For a better understanding of text in scenes, it is more desired to detect contextual text blocks (CTBs) which consist of one or multiple integral text units (e.g., characters, words, or phrases) in natural reading order and transmit certain complete text messages. This paper presents contextual text detection, a new setup that detects CTBs for better understanding of texts in scenes. We formulate the new setup by a dual detection task which first detects integral text units and then groups them into a CTB. To this end, we design a novel scene text clustering technique that treats integral text units as tokens and groups them (belonging to the same CTB) into an ordered token sequence. In addition, we create two datasets SCUT-CTW-Context and ReCTS-Context to facilitate future research, where each CTB is well annotated by an ordered sequence of integral text units. Further, we introduce three metrics that measure contextual text detection in local accuracy, continuity, and global accuracy. Extensive experiments show that our method accurately detects CTBs which effectively facilitates downstream tasks such as text classification and translation. The project is available at https://sg-vilab.github.io/publication/xue2022contextual/.

arxiv情報

著者 Chuhui Xue,Jiaxing Huang,Shijian Lu,Changhu Wang,Song Bai
発行日 2022-07-26 14:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク