Scene Text Synthesis for Efficient and Effective Deep Network Training

要約

正確で頑健なディープネットワークモデルを学習するためには、大量の注釈付き学習画像が不可欠ですが、大量の注釈付き学習画像の収集には時間とコストがかかることが多いです。画像合成は、この制約を緩和するために、機械によって自動的に注釈付き学習画像を生成するもので、最近の深層学習研究で関心が高まっている。我々は、前景のオブジェクトオブインタレスト(OOI)を背景画像にリアルに埋め込むことで注釈付き学習画像を合成する革新的な画像合成技術を開発する。提案技術は、ディープネットワーク学習における合成画像の有用性を原理的に高める2つの重要な要素から構成される。1つ目は、文脈を考慮した意味的一貫性で、背景画像内の意味的に一貫性のある領域の周りにOOIが配置されるようにすることである。2つ目は、調和的な外観適応で、埋め込まれたOOIが周囲の背景と幾何学的な整合性と外観のリアルさの両方から一致することを保証するものである。提案手法は、シーンテキスト検出とシーンテキスト認識という、関連性はあるが全く異なる2つのコンピュータビジョンの課題に対して評価された。提案手法を用いたディープネットワークの学習は、実画像を用いた場合と同等以上のシーンテキスト検出およびシーンテキスト認識性能を達成することが可能であり、多くの公共データセットに対する実験が提案手法の有効性を実証しています。

要約(オリジナル)

A large amount of annotated training images is critical for training accurate and robust deep network models but the collection of a large amount of annotated training images is often time-consuming and costly. Image synthesis alleviates this constraint by generating annotated training images automatically by machines which has attracted increasing interest in the recent deep learning research. We develop an innovative image synthesis technique that composes annotated training images by realistically embedding foreground objects of interest (OOI) into background images. The proposed technique consists of two key components that in principle boost the usefulness of the synthesized images in deep network training. The first is context-aware semantic coherence which ensures that the OOI are placed around semantically coherent regions within the background image. The second is harmonious appearance adaptation which ensures that the embedded OOI are agreeable to the surrounding background from both geometry alignment and appearance realism. The proposed technique has been evaluated over two related but very different computer vision challenges, namely, scene text detection and scene text recognition. Experiments over a number of public datasets demonstrate the effectiveness of our proposed image synthesis technique – the use of our synthesized images in deep network training is capable of achieving similar or even better scene text detection and scene text recognition performance as compared with using real images.

arxiv情報

著者 Changgong Zhang,Fangneng Zhan,Hongyuan Zhu,Shijian Lu
発行日 2022-10-03 17:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク