要約
ビデオ テキスト スポッティングは、ビデオ内のテキスト インスタンスのローカライズ、認識、追跡を同時に行うことを目的としています。
エンドツーエンド方式の限られた認識能力に対処するために、最先端の画像テキストスポッターのゼロショット結果を直接追跡することで、優れたパフォーマンスを達成できます。
ただし、異なるデータセット間のドメインギャップのため、これらの方法では通常、極端なデータセットでは限られた追跡軌道しか得られません。
特定のデータセットでトランスフォーマー ベースのテキスト スポッターを微調整すると、かなりのトレーニング リソースが犠牲になるものの、パフォーマンスが向上する可能性があります。
この論文では、相乗効果モジュールの統合を通じて従来のテキスト スポッターのパフォーマンスを向上させる、LOGO と呼ばれる言語コラボレーションおよびグリフ認識モデルを提案します。
この目標を達成するために、言語相乗分類器 (LSC) は、認識段階で背景ノイズからテキスト インスタンスを明示的に識別するように設計されています。
特に、言語シナジー分類器は、テキスト領域の読みやすさに基づいてテキスト コンテンツまたは背景コードを出力し、言語スコアを計算できます。
その後、検出スコアと言語スコアの平均を取ることで融合スコアが計算され、追跡前に検出結果を再スコア化するために利用されます。
提案された LSC は、再スコアリング メカニズムにより、テキストのような領域をフィルタリングしながら、低解像度のテキスト インスタンスの検出を容易にします。
さらに,グリフ監視モジュールと視覚的位置混合モジュールは,ノイズのあるテキスト領域の認識精度を向上させ,より識別的な追跡特徴を取得するためにそれぞれ提案されている。
公開ベンチマークでの広範な実験により、提案された方法の有効性が検証されます。
要約(オリジナル)
Video text spotting aims to simultaneously localize, recognize and track text instances in videos. To address the limited recognition capability of end-to-end methods, tracking the zero-shot results of state-of-the-art image text spotters directly can achieve impressive performance. However, owing to the domain gap between different datasets, these methods usually obtain limited tracking trajectories on extreme dataset. Fine-tuning transformer-based text spotters on specific datasets could yield performance enhancements, albeit at the expense of considerable training resources. In this paper, we propose a Language Collaboration and Glyph Perception Model, termed LOGO to enhance the performance of conventional text spotters through the integration of a synergy module. To achieve this goal, a language synergy classifier (LSC) is designed to explicitly discern text instances from background noise in the recognition stage. Specially, the language synergy classifier can output text content or background code based on the legibility of text regions, thus computing language scores. Subsequently, fusion scores are computed by taking the average of detection scores and language scores, and are utilized to re-score the detection results before tracking. By the re-scoring mechanism, the proposed LSC facilitates the detection of low-resolution text instances while filtering out text-like regions. Besides, the glyph supervision and visual position mixture module are proposed to enhance the recognition accuracy of noisy text regions, and acquire more discriminative tracking features, respectively. Extensive experiments on public benchmarks validate the effectiveness of the proposed method.
arxiv情報
著者 | Hongen Liu,Yi Liu,Di Sun,Jiahao Wang,Gang Pan |
発行日 | 2024-05-29 15:35:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google