CBNet: A Plug-and-Play Network for Segmentation-based Scene Text Detection


近年、シーンテキスト検出では、セグメンテーションに基づく手法が非常によく使われており、主にテキストカーネルのセグメンテーションと拡張の2つのステップを含んでいます。しかし,セグメンテーションは各画素を独立して考慮するだけであり,拡張は精度と速度のトレードオフが困難である.本論文では、これらの問題に対処するために、Context-aware and Boundary-guided Network (CBN)を提案する。CBNでは、まず、基本的なテキスト検出器を用いて、初期セグメンテーションの結果を予測する。次に、テキストカーネルの特徴表現を強化するために、グローバルコンテキストとローカルコンテキストの両方を考慮したコンテキストアウェアモジュールを提案する。最後に、輪郭上の画素のみを用いて拡張されたテキストカーネルを適応的に展開する境界誘導型モジュールを導入し、正確なテキスト境界を得るだけでなく、特に高解像度出力マップにおいて高速性を維持する。特に、軽量なバックボーンを持つ、我々の提案するCBNを搭載した基本検出器は、いくつかの一般的なベンチマークにおいて最先端の結果を達成し、我々の提案するCBNは、いくつかのセグメンテーションベースの手法にプラグインすることが可能である。コードは で公開される予定です。


Recently, segmentation-based methods are quite popular in scene text detection, which mainly contain two steps: text kernel segmentation and expansion. However, the segmentation process only considers each pixel independently, and the expansion process is difficult to achieve a favorable accuracy-speed trade-off. In this paper, we propose a Context-aware and Boundary-guided Network (CBN) to tackle these problems. In CBN, a basic text detector is firstly used to predict initial segmentation results. Then, we propose a context-aware module to enhance text kernel feature representations, which considers both global and local contexts. Finally, we introduce a boundary-guided module to expand enhanced text kernels adaptively with only the pixels on the contours, which not only obtains accurate text boundaries but also keeps high speed, especially on high-resolution output maps. In particular, with a lightweight backbone, the basic detector equipped with our proposed CBN achieves state-of-the-art results on several popular benchmarks, and our proposed CBN can be plugged into several segmentation-based methods. Code will be available on


著者 Xi Zhao,Wei Feng,Zheng Zhang,Jingjing Lv,Xin Zhu,Zhangang Lin,Jinghe Hu,Jingping Shao
発行日 2022-12-05 15:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク