要約
近年のテキスト検出器は、総合的な性能を追求するため、検出速度を向上させる一方で、検出精度を犠牲にしている。そのため、検出精度は縮小マスクに大きく依存する。しかし、3つの欠点があるため、信頼性の低い収縮マスクになってしまいます。具体的には、これらの方法は、意味情報によって背景からのシュリンクマスクの識別を強化しようとしています。しかし、粗いレイヤーが細かい目的によって最適化される特徴デフォーカス現象により、意味的特徴の抽出が制限される。一方、シュリンクマスクと余白はともにテキストに属するため、余白を無視するディテールロス現象が、シュリンクマスクと余白の区別を妨げ、シュリンクマスクの端があいまいになってしまう。さらに、偽陽性サンプルはシュリンクマスクと同様の視覚的特徴を享受しています。また、誤検出サンプルはシュリンクマスクと視覚的特徴が類似しており、シュリンクマスクの認識精度を低下させる。そこで、我々はカメラのズーム処理に着想を得たズームテキスト検出器(ZTD)を提案する。具体的には、ズームアウトモジュール(ZOM)を導入し、特徴量のデフォーカスを避けるために、粗いレイヤーに対して粗視化最適化目標を提供する。一方、ズームインモジュール(ZIM)は、ディテールの消失を防ぐために余白の認識を強化するために提示されている。さらに、Sequential-Visual Discriminator (SVD)は、順次的・視覚的特徴により偽陽性サンプルを抑制するように設計されている。実験により、ZTDの優れた総合性能が検証された。
要約(オリジナル)
To pursue comprehensive performance, recent text detectors improve detection speed at the expense of accuracy. They adopt shrink-mask based text representation strategies, which leads to a high dependency of detection accuracy on shrink-masks. Unfortunately, three disadvantages cause unreliable shrink-masks. Specifically, these methods try to strengthen the discrimination of shrink-masks from the background by semantic information. However, the feature defocusing phenomenon that coarse layers are optimized by fine-grained objectives limits the extraction of semantic features. Meanwhile, since both shrink-masks and the margins belong to texts, the detail loss phenomenon that the margins are ignored hinders the distinguishment of shrink-masks from the margins, which causes ambiguous shrink-mask edges. Moreover, false-positive samples enjoy similar visual features with shrink-masks. They aggravate the decline of shrink-masks recognition. To avoid the above problems, we propose a Zoom Text Detector (ZTD) inspired by the zoom process of the camera. Specifically, Zoom Out Module (ZOM) is introduced to provide coarse-grained optimization objectives for coarse layers to avoid feature defocusing. Meanwhile, Zoom In Module (ZIM) is presented to enhance the margins recognition to prevent detail loss. Furthermore, Sequential-Visual Discriminator (SVD) is designed to suppress false-positive samples by sequential and visual features. Experiments verify the superior comprehensive performance of ZTD.
arxiv情報
著者 | Chuang. Yang,Mulin. Chen,Yuan. Yuan,Qi. Wang |
発行日 | 2022-09-07 09:19:21+00:00 |
arxivサイト | arxiv_id(pdf) |