Real-time End-to-End Video Text Spotter with Contrastive Representation Learning

要約

ビデオテキストスポッティング(VTS)は、ビデオ内のテキストを検出、追跡、認識する必要があるタスクである。既存のビデオテキストスポッティング手法は、一般的に高度なパイプラインと複数のモデルを開発しており、リアルタイムアプリケーションには不向きである。本論文では、Contrastive Representation learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。1) CoTextは、テキスト検出、追跡、認識の3つのタスクに同時に対応し、リアルタイムでエンドツーエンドな学習が可能なフレームワークである。2) コントラスト学習により、CoTextは長距離依存性をモデル化し、複数のフレームにまたがる時間情報を学習する。3) GPU並列検出後処理、Masked RoIを用いたCTCベース認識ヘッドなど、効果的で正確なパフォーマンスを実現するためのシンプルで軽量なアーキテクチャを設計している。広範な実験により、本手法の優位性が示された。特に、CoTextはICDAR2015videoにおいて、41.0FPSで72.0%のビデオテキストスポッティングIDF1を達成し、従来の最良手法より10.5%、32.0FPS向上しています。コードはgithub.com/weijiawu/CoTextに掲載されています。

要約(オリジナル)

Video text spotting(VTS) is the task that requires simultaneously detecting, tracking and recognizing text in the video. Existing video text spotting methods typically develop sophisticated pipelines and multiple models, which is not friend for real-time applications. Here we propose a real-time end-to-end video text spotter with Contrastive Representation learning (CoText). Our contributions are three-fold: 1) CoText simultaneously address the three tasks (e.g., text detection, tracking, recognition) in a real-time end-to-end trainable framework. 2) With contrastive learning, CoText models long-range dependencies and learning temporal information across multiple frames. 3) A simple, lightweight architecture is designed for effective and accurate performance, including GPU-parallel detection post-processing, CTC-based recognition head with Masked RoI. Extensive experiments show the superiority of our method. Especially, CoText achieves an video text spotting IDF1 of 72.0% at 41.0 FPS on ICDAR2015video, with 10.5% and 32.0 FPS improvement the previous best method. The code can be found at github.com/weijiawu/CoText.

arxiv情報

著者 Wejia Wu,Zhuang Li,Jiahong Li,Chunhua Shen,Hong Zhou,Size Li,Zhongyuan Wang,Ping Luo
発行日 2022-08-09 12:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク