要約
シーン テキスト画像超解像度 (STISR) は、最近、シーン テキスト認識の前処理方法として大きな成功を収めています。
STISR は、現実世界の設定でぼやけてノイズの多い低解像度 (LR) テキスト画像を、シーンのテキスト認識に適した鮮明な高解像度 (HR) テキスト画像に変換することを目的としています。
この研究では、優れたテキストから画像への合成機能で知られるテキスト条件付き拡散モデル (DM) を STISR タスクに活用します。
私たちの実験結果では、テキスト条件付き DM が既存の STISR 手法を著しく上回っていることが明らかになりました。
特に、LR テキスト画像のテキストが入力として与えられた場合、テキスト条件付き DM は高品質の超解像度テキスト画像を生成できます。
この機能を利用して、LR-HR ペアのテキスト画像データセットを合成するための新しいフレームワークを提案します。
このフレームワークは 3 つの特殊なテキスト条件付き DM で構成されており、それぞれがテキスト画像合成、超解像度、画像劣化に特化しています。
これら 3 つのモジュールは、STISR メソッドのトレーニングにより適した、個別の LR と HR のペア画像を合成するために不可欠です。
私たちの実験では、これらの合成画像ペアが TextZoom 評価における STISR 法のパフォーマンスを大幅に向上させることが確認されました。
要約(オリジナル)
Scene Text Image Super-resolution (STISR) has recently achieved great success as a preprocessing method for scene text recognition. STISR aims to transform blurred and noisy low-resolution (LR) text images in real-world settings into clear high-resolution (HR) text images suitable for scene text recognition. In this study, we leverage text-conditional diffusion models (DMs), known for their impressive text-to-image synthesis capabilities, for STISR tasks. Our experimental results revealed that text-conditional DMs notably surpass existing STISR methods. Especially when texts from LR text images are given as input, the text-conditional DMs are able to produce superior quality super-resolution text images. Utilizing this capability, we propose a novel framework for synthesizing LR-HR paired text image datasets. This framework consists of three specialized text-conditional DMs, each dedicated to text image synthesis, super-resolution, and image degradation. These three modules are vital for synthesizing distinct LR and HR paired images, which are more suitable for training STISR methods. Our experiments confirmed that these synthesized image pairs significantly enhance the performance of STISR methods in the TextZoom evaluation.
arxiv情報
著者 | Chihiro Noguchi,Shun Fukuda,Masao Yamanaka |
発行日 | 2023-11-16 10:32:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google