TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform Mask

要約

フォント、サイズ、色、向きのテキストがさまざまに変化するため、任意の形のシーンテキストの検出は困難な作業です。
ほとんどの既存の回帰ベースの方法は、テキスト領域のマスクまたは輪郭点を回帰してテキストインスタンスをモデル化することに頼っています。
ただし、完全なマスクを回帰するには、高度なトレーニングの複雑さが必要であり、輪郭点は、高度に湾曲したテキストの詳細をキャプチャするのに十分ではありません。
上記の制限に対処するために、TextDCTと呼ばれる新しい軽量のアンカーフリーテキスト検出フレームワークを提案します。これは、離散コサイン変換(DCT)を採用して、テキストマスクをコンパクトなベクトルとしてエンコードします。
さらに、ピラミッド層間のトレーニングサンプルの数の不均衡を考慮して、トップダウン予測には単一レベルのヘッドのみを使用します。
単一レベルのヘッドでマルチスケールテキストをモデル化するために、縮小されたテキスト領域をポジティブサンプルとして扱うことにより、新しいポジティブサンプリング戦略を導入し、融合によって空間認識とスケール認識のための機能認識モジュール(FAM)を設計します。
豊富なコンテキスト情報とより重要な機能に焦点を当てています。
さらに、低品質のマスク回帰をフィルタリングできるセグメント化された非最大抑制(S-NMS)メソッドを提案します。
4つの挑戦的なデータセットで広範な実験が行われ、TextDCTが精度と効率の両方で競争力のあるパフォーマンスを獲得していることを示しています。
具体的には、TextDCTは、CTW1500およびTotal-Textデータセットに対して、それぞれ17.2フレーム/秒(FPS)で85.1のF測定値と15.1FPSで84.9のF測定値を達成します。

要約(オリジナル)

Arbitrary-shaped scene text detection is a challenging task due to the variety of text changes in font, size, color, and orientation. Most existing regression based methods resort to regress the masks or contour points of text regions to model the text instances. However, regressing the complete masks requires high training complexity, and contour points are not sufficient to capture the details of highly curved texts. To tackle the above limitations, we propose a novel light-weight anchor-free text detection framework called TextDCT, which adopts the discrete cosine transform (DCT) to encode the text masks as compact vectors. Further, considering the imbalanced number of training samples among pyramid layers, we only employ a single-level head for top-down prediction. To model the multi-scale texts in a single-level head, we introduce a novel positive sampling strategy by treating the shrunk text region as positive samples, and design a feature awareness module (FAM) for spatial-awareness and scale-awareness by fusing rich contextual information and focusing on more significant features. Moreover, we propose a segmented non-maximum suppression (S-NMS) method that can filter low-quality mask regressions. Extensive experiments are conducted on four challenging datasets, which demonstrate our TextDCT obtains competitive performance on both accuracy and efficiency. Specifically, TextDCT achieves F-measure of 85.1 at 17.2 frames per second (FPS) and F-measure of 84.9 at 15.1 FPS for CTW1500 and Total-Text datasets, respectively.

arxiv情報

著者 Yuchen Su,Zhiwen Shao,Yong Zhou,Fanrong Meng,Hancheng Zhu,Bing Liu,Rui Yao
発行日 2022-06-27 15:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク