A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed Real-World Data

要約

背景シーン画像上にテキストインスタンスを自然に合成することを目的としたシーンテキスト画像合成技術は、正確かつ包括的なアノテーション情報を提供できるため、ディープニューラルネットワークの学習にとって非常に魅力的な技術である。先行研究では、実世界の観察から得られたルールに基づいて、2次元および3次元表面上の合成テキスト画像を生成することが検討されている。しかし、適切な学習データセットがないため、既存の実世界データから学習する教師なしフレームワークが検討されており、その結果、ロバストなパフォーマンスが得られない可能性があります。このジレンマを緩和し、学習ベースのシーンテキスト合成の研究を促進するために、我々は、四辺形レベルのBBox、ストロークレベルのテキストマスク、テキストを消去した画像の3種類のアノテーションを持つ、公開ベンチマークを用いた実世界データセット、DecompSTを提案する。DecompSTデータセットを用いて、テキスト位置提案ネットワーク(TLPNet)とテキスト外観適応ネットワーク(TAANet)を含む画像合成エンジンを提案する。TLPNetはまず、テキストを埋め込むのに適した領域を予測する。次に、TAANetが背景の文脈に応じてテキストインスタンスの形状や色を適応的に変化させる。提案手法を用いた実験により、シーンテキスト検出のための事前学習データ生成の有効性が検証された。

要約(オリジナル)

Scene-text image synthesis techniques aimed at naturally composing text instances on background scene images are very appealing for training deep neural networks because they can provide accurate and comprehensive annotation information. Prior studies have explored generating synthetic text images on two-dimensional and three-dimensional surfaces based on rules derived from real-world observations. Some of these studies have proposed generating scene-text images from learning; however, owing to the absence of a suitable training dataset, unsupervised frameworks have been explored to learn from existing real-world data, which may not result in a robust performance. To ease this dilemma and facilitate research on learning-based scene text synthesis, we propose DecompST, a real-world dataset prepared using public benchmarks, with three types of annotations: quadrilateral-level BBoxes, stroke-level text masks, and text-erased images. Using the DecompST dataset, we propose an image synthesis engine that includes a text location proposal network (TLPNet) and a text appearance adaptation network (TAANet). TLPNet first predicts the suitable regions for text embedding. TAANet then adaptively changes the geometry and color of the text instance according to the context of the background. Our comprehensive experiments verified the effectiveness of the proposed method for generating pretraining data for scene text detectors.

arxiv情報

著者 Zhengmi Tang,Tomo Miyazaki,Shinichiro Omachi
発行日 2022-09-06 11:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク