FlowText: Synthesizing Realistic Scene Text Video with Optical Flow Estimation

要約

タイトル:FlowText:光流推定を用いた現実的なシーンテキストビデオの合成

要約:

– 現在のビデオテキストスポッティング方法は、十分なラベル付き訓練データを使用すると優れた性能を発揮することができる。
– しかし、手動でデータをラベル付けすることは時間がかかり、労力がかかる。
– この問題を克服するために、低コストの合成データを使用することは有望な代替手段である。
– 本論文では、FlowTextと呼ばれる新しいビデオテキスト合成技術を紹介する。
– FlowTextは、光流推定を利用して、連続するフレーム間のテキストインスタンスの時間情報を合成することにより、低コストで大量のテキストビデオデータを合成し、頑健なビデオテキストスポッターのトレーニングに役立てる。
– 既存の方法が画像レベルの合成に焦点を当てているのに対して、FlowTextは、光流を使用してテキストインスタンスの時間情報を合成することに重点を置いている。
– この時間情報は、テキストの移動、ゆがみ、現れたり消えたり、避難所やぼやけなど、ビデオシークエンスでテキストを正確にトラッキングおよびスポッティングするために重要である。
– 実験の結果、TransDETRのような一般的な検出器とFlowTextを組み合わせることで、ICDAR2015videoやICDAR2013videoなどのさまざまなデータセットで優れた結果が得られることが示されている。
– コードはhttps://github.com/callsys/FlowTextで入手可能。

要約(オリジナル)

Current video text spotting methods can achieve preferable performance, powered with sufficient labeled training data. However, labeling data manually is time-consuming and labor-intensive. To overcome this, using low-cost synthetic data is a promising alternative. This paper introduces a novel video text synthesis technique called FlowText, which utilizes optical flow estimation to synthesize a large amount of text video data at a low cost for training robust video text spotters. Unlike existing methods that focus on image-level synthesis, FlowText concentrates on synthesizing temporal information of text instances across consecutive frames using optical flow. This temporal information is crucial for accurately tracking and spotting text in video sequences, including text movement, distortion, appearance, disappearance, shelter, and blur. Experiments show that combining general detectors like TransDETR with the proposed FlowText produces remarkable results on various datasets, such as ICDAR2015video and ICDAR2013video. Code is available at https://github.com/callsys/FlowText.

arxiv情報

著者 Yuzhong Zhao,Weijia Wu,Zhuang Li,Jiahong Li,Weiqiang Wang
発行日 2023-05-05 07:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク