A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed Real-World Data

要約

背景シーン画像上にテキストインスタンスを自然に構成することを目的としたシーンテキスト画像合成技術は、正確かつ包括的な注釈情報を提供できるため、ディープニューラルネットワークのトレーニングにとって非常に魅力的です。
これまでの研究では、実世界の観察から導き出されたルールを使用して、2 次元および 3 次元の表面上に合成テキスト画像を生成することが検討されてきました。
これらの研究の中には、学習を通じてシーンテキスト画像を生成することを提案したものもあります。
ただし、適切なトレーニング データセットがないため、信頼できるパフォーマンスが得られない可能性がある既存の実世界データから学習する教師なしフレームワークが検討されています。
このジレンマを緩和し、学習ベースのシーン テキスト合成の研究を促進するために、いくつかの公開ベンチマークから作成された現実世界のデータセットである DecompST を導入します。このデータセットには、四角形レベルの BBox、ストローク レベルのテキスト マスク、およびテキストの 3 種類の注釈が​​含まれています。
消された画像。
DecompST データセットを活用して、テキスト位置提案ネットワーク (TLPNet) とテキスト外観適応ネットワーク (TAANet) を含む学習ベースのテキスト合成エンジン (LBTS) を提案します。
TLPNet は最初にテキスト埋め込みに適した領域を予測し、その後、TAANet が背景コンテキストに一致するようにテキスト インスタンスのジオメトリと色を適応的に調整します。
トレーニング後、これらのネットワークを統合して利用して、シーン テキスト分析タスク用の合成データセットを生成できます。
提案された LBTS の有効性を既存の方法とともに検証するために包括的な実験が実施されました。実験結果は、提案された LBTS がシーン テキスト検出器のためのより良い事前トレーニング データを生成できることを示しています。

要約(オリジナル)

Scene-text image synthesis techniques that aim to naturally compose text instances on background scene images are very appealing for training deep neural networks due to their ability to provide accurate and comprehensive annotation information. Prior studies have explored generating synthetic text images on two-dimensional and three-dimensional surfaces using rules derived from real-world observations. Some of these studies have proposed generating scene-text images through learning; however, owing to the absence of a suitable training dataset, unsupervised frameworks have been explored to learn from existing real-world data, which might not yield reliable performance. To ease this dilemma and facilitate research on learning-based scene text synthesis, we introduce DecompST, a real-world dataset prepared from some public benchmarks, containing three types of annotations: quadrilateral-level BBoxes, stroke-level text masks, and text-erased images. Leveraging the DecompST dataset, we propose a Learning-Based Text Synthesis engine (LBTS) that includes a text location proposal network (TLPNet) and a text appearance adaptation network (TAANet). TLPNet first predicts the suitable regions for text embedding, after which TAANet adaptively adjusts the geometry and color of the text instance to match the background context. After training, those networks can be integrated and utilized to generate the synthetic dataset for scene text analysis tasks. Comprehensive experiments were conducted to validate the effectiveness of the proposed LBTS along with existing methods, and the experimental results indicate the proposed LBTS can generate better pretraining data for scene text detectors.

arxiv情報

著者 Zhengmi Tang,Tomo Miyazaki,Shinichiro Omachi
発行日 2023-10-17 11:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク