Box2Poly: Memory-Efficient Polygon Prediction of Arbitrarily Shaped and Rotated Text

要約

最近、Transformer ベースのテキスト検出技術では、個別のクエリ特徴を使用して個々の境界頂点の座標をエンコードすることにより、ポリゴンを予測しようとしています。
ただし、このアプローチでは大幅なメモリ オーバーヘッドが発生し、同じインスタンスに属する頂点間の複雑な関係を効果的に把握するのが困難になります。
その結果、不規則なテキスト レイアウトにより頂点の輪郭が予測されることが多く、結果の品質が低下します。
これらの課題に対処するために、Sparse R-CNN に根ざした革新的なアプローチ、つまりポリゴン予測のためのカスケード デコーディング パイプラインを紹介します。
私たちの方法では、前の結果のスケールと位置の両方を考慮して、ポリゴン予測を繰り返し調整することで精度を確保します。
この安定化された回帰パイプラインを活用し、単一の特徴ベクトルを使用してポリゴン インスタンス回帰をガイドするだけでも、有望な検出結果が得られます。
同時に、インスタンスレベルの機能提案を活用することで、メモリ効率が大幅に向上し (最先端のメソッド DPText-DETR と比較して >50% 削減)、推論速度が低下します (DPText-DETR と比較して >40% 削減)。
ベンチマークでのパフォーマンスのわずかな低下。

要約(オリジナル)

Recently, Transformer-based text detection techniques have sought to predict polygons by encoding the coordinates of individual boundary vertices using distinct query features. However, this approach incurs a significant memory overhead and struggles to effectively capture the intricate relationships between vertices belonging to the same instance. Consequently, irregular text layouts often lead to the prediction of outlined vertices, diminishing the quality of results. To address these challenges, we present an innovative approach rooted in Sparse R-CNN: a cascade decoding pipeline for polygon prediction. Our method ensures precision by iteratively refining polygon predictions, considering both the scale and location of preceding results. Leveraging this stabilized regression pipeline, even employing just a single feature vector to guide polygon instance regression yields promising detection results. Simultaneously, the leverage of instance-level feature proposal substantially enhances memory efficiency (>50% less vs. the state-of-the-art method DPText-DETR) and reduces inference speed (>40% less vs. DPText-DETR) with minor performance drop on benchmarks.

arxiv情報

著者 Xuyang Chen,Dong Wang,Konrad Schindler,Mingwei Sun,Yongliang Wang,Nicolo Savioli,Liqiu Meng
発行日 2023-09-20 12:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク