要約
不規則な形状のテキストは、シーンテキスト検出(STD)に課題をもたらす。既存の輪郭点列ベースのアプローチは、同等の性能を達成しているが、高度に湾曲したリボン状のテキストラインをカバーすることができない。そのため、テキストフィッティングやSTDの適用に限界がある。このような問題を考慮し、我々はテキストの幾何学的特徴とバイオニクスを組み合わせて、自然な葉脈に基づくテキスト表現法(LVT)を設計する。具体的には、葉脈は一般に有向グラフであり、様々な形状を容易にカバーできることが分かっている。そこで、テキストの輪郭を葉脈とみなし、主脈、側脈、細脈によって表現する。さらに、LVTに基づく検出フレームワーク、すなわちLeafTextを構築する。テキストの再構成段階では、葉の成長過程をシミュレートし、テキストの輪郭を再構築します。まず、直交座標系で主脈を成長させ、テキストの位置を大まかに特定する。次に、主脈の成長方向に沿って、極座標で横脈と細脈を生成します。これらはそれぞれ、粗い輪郭を生成する役割と、輪郭を精緻化する役割を担っている。側脈と細脈が主脈に深く依存していることを考慮し、信頼性の高い検出結果を保証するために、主脈の頑健性を高める多方向スムーザ(MOS)が提案される。さらに、側線と細線静脈の予測を加速させるために、グローバルインセンティブロスを提案する。アブレーション実験により、LVTが任意形状のテキストを正確に描画できることを示し、MOSとグローバルインセンティブロスの有効性を検証しました。比較の結果、MSRA-TD500, CTW1500, Total-Text, ICDAR2015データセットにおいて、LeafTextは既存の最先端手法(SOTA)よりも優れていることが示された。
要約(オリジナル)
Irregular-shaped texts bring challenges to Scene Text Detection (STD). Although existing contour point sequence-based approaches achieve comparable performances, they fail to cover some highly curved ribbon-like text lines. It leads to limited text fitting ability and STD technique application. Considering the above problem, we combine text geometric characteristics and bionics to design a natural leaf vein-based text representation method (LVT). Concretely, it is found that leaf vein is a generally directed graph, which can easily cover various geometries. Inspired by it, we treat text contour as leaf margin and represent it through main, lateral, and thin veins. We further construct a detection framework based on LVT, namely LeafText. In the text reconstruction stage, LeafText simulates the leaf growth process to rebuild text contour. It grows main vein in Cartesian coordinates to locate text roughly at first. Then, lateral and thin veins are generated along the main vein growth direction in polar coordinates. They are responsible for generating coarse contour and refining it, respectively. Considering the deep dependency of lateral and thin veins on main vein, the Multi-Oriented Smoother (MOS) is proposed to enhance the robustness of main vein to ensure a reliable detection result. Additionally, we propose a global incentive loss to accelerate the predictions of lateral and thin veins. Ablation experiments demonstrate LVT is able to depict arbitrary-shaped texts precisely and verify the effectiveness of MOS and global incentive loss. Comparisons show that LeafText is superior to existing state-of-the-art (SOTA) methods on MSRA-TD500, CTW1500, Total-Text, and ICDAR2015 datasets.
arxiv情報
著者 | Chuang. Yang,Mulin. Chen,Yuan. Yuan,Qi. Wang |
発行日 | 2022-09-07 09:22:32+00:00 |
arxivサイト | arxiv_id(pdf) |