要約
接続コンポーネント(CC)は、人間の読書直観と整合する適切なテキスト形状の表現です。
ただし、CCベースのテキスト検出方法は、最近、時間のかかる後処理を排除するのが難しい発達的ボトルネックに直面しています。
この問題に対処するために、明示的なリレーショナル推論ネットワーク(ERRNET)を導入して、ポスト処理なしでコンポーネント関係をエレガントにモデル化します。
具体的には、最初に各テキストインスタンスを複数の順序付けされたテキストコンポーネントとして表し、次にこれらのコンポーネントを連続運動のオブジェクトとして扱います。
このようにして、シーンのテキストの検出は、追跡問題と革新的に見ることができます。
この観点から、エンドツーエンドの追跡デコーダーを設計して、ポスト処理を完全に分配するCCベースの方法を実現します。
さらに、分類の信頼性とローカリゼーションの品質の間に矛盾があることを観察しているため、ローカリゼーションの品質を迅速かつ正確に評価するためのポリゴンモンテカルロ法を提案します。
これに基づいて、職位を維持した分類損失を導入して、ERRNETのタスクに配置された学習を導きます。
挑戦的なベンチマークの実験は、私たちのerrnetの有効性を示しています。
非常に競争力のある推論速度を保持しながら、一貫して最先端の精度を達成します。
要約(オリジナル)
Connected component (CC) is a proper text shape representation that aligns with human reading intuition. However, CC-based text detection methods have recently faced a developmental bottleneck that their time-consuming post-processing is difficult to eliminate. To address this issue, we introduce an explicit relational reasoning network (ERRNet) to elegantly model the component relationships without post-processing. Concretely, we first represent each text instance as multiple ordered text components, and then treat these components as objects in sequential movement. In this way, scene text detection can be innovatively viewed as a tracking problem. From this perspective, we design an end-to-end tracking decoder to achieve a CC-based method dispensing with post-processing entirely. Additionally, we observe that there is an inconsistency between classification confidence and localization quality, so we propose a Polygon Monte-Carlo method to quickly and accurately evaluate the localization quality. Based on this, we introduce a position-supervised classification loss to guide the task-aligned learning of ERRNet. Experiments on challenging benchmarks demonstrate the effectiveness of our ERRNet. It consistently achieves state-of-the-art accuracy while holding highly competitive inference speed.
arxiv情報
著者 | Yuchen Su,Zhineng Chen,Yongkun Du,Zhilong Ji,Kai Hu,Jinfeng Bai,Xieping Gao |
発行日 | 2025-02-07 16:51:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google