Progressive Evolution from Single-Point to Polygon for Scene Text

要約

コンパクト化を目指したテキスト形状表現の進歩により、テキスト検出とスポッティングのパフォーマンスが向上しましたが、注釈のコストは高くなります。
現在のモデルはコストを削減するために単一ポイントの注釈を使用していますが、下流のアプリケーションのための十分なローカリゼーション情報が不足しています。
この制限を克服するために、単一点をコンパクトなポリゴンに効率的に変換できる Point2Polygon を導入します。
私たちの方法では、粗いプロセスから細かいプロセスまでを使用します。まず、認識信頼度に基づいてアンカー ポイントを作成および選択し、次に認識情報を使用してポリゴンを垂直方向および水平方向に調整して形状を最適化します。
私たちは、広範な実験を通じて、生成されたポリゴンの精度を実証しました。 1) グラウンド トゥルース ポイントからポリゴンを作成することにより、ICDAR 2015 で 82.0% の精度を達成しました。
2) 私たちの方法で生成されたポリゴンを使用して検出器をトレーニングすると、グラウンド トゥルース (GT) を使用したトレーニングと比較して 86% の精度を達成しました。
3) さらに、提案された Point2Polygon をシームレスに統合して、単一ポイント スポッターがポリゴンを生成できるようにすることができます。
この統合により、生成されたポリゴンの精度は 82.5% という驚異的な結果になりました。
私たちの方法は合成認識情報のみに依存しており、単一点を超える手動の注釈の必要性を排除していることは言及する価値があります。

要約(オリジナル)

The advancement of text shape representations towards compactness has enhanced text detection and spotting performance, but at a high annotation cost. Current models use single-point annotations to reduce costs, yet they lack sufficient localization information for downstream applications. To overcome this limitation, we introduce Point2Polygon, which can efficiently transform single-points into compact polygons. Our method uses a coarse-to-fine process, starting with creating and selecting anchor points based on recognition confidence, then vertically and horizontally refining the polygon using recognition information to optimize its shape. We demonstrate the accuracy of the generated polygons through extensive experiments: 1) By creating polygons from ground truth points, we achieved an accuracy of 82.0% on ICDAR 2015; 2) In training detectors with polygons generated by our method, we attained 86% of the accuracy relative to training with ground truth (GT); 3) Additionally, the proposed Point2Polygon can be seamlessly integrated to empower single-point spotters to generate polygons. This integration led to an impressive 82.5% accuracy for the generated polygons. It is worth mentioning that our method relies solely on synthetic recognition information, eliminating the need for any manual annotation beyond single points.

arxiv情報

著者 Linger Deng,Mingxin Huang,Xudong Xie,Yuliang Liu,Lianwen Jin,Xiang Bai
発行日 2024-05-10 14:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク