Text Image Inpainting via Global Structure-Guided Diffusion Models

要約

現実世界のテキストは、環境または人的要因によって引き起こされる腐食問題によって損傷する可能性があり、テクスチャや構造など、テキストの完全なスタイルの保存が妨げられます。
落書き標識や不完全な署名などのこれらの腐食の問題は、テキストの理解に困難をもたらし、それにより、シーンテキスト認識や署名識別などの下流アプリケーションに重大な課題をもたらします。
特に、現在の修復技術はこの問題に適切に対処できないことが多く、合理的で一貫したスタイルとともに正確なテキスト イメージを復元することが困難です。
この文書は、これをテキスト画像修復の未解決の問題として定式化し、研究を容易にするベンチマークを構築することを目的としています。
そうすることで、シーン テキスト イメージと手書きテキスト イメージをそれぞれ含む 2 つの特定のテキスト修復データセットを確立します。
それぞれの画像には、現実のデータセットと合成データセットによって改良された画像が含まれており、元の画像、破損した画像、その他の補助情報のペアが特徴です。
データセットに基づいて、潜在的なソリューションとして、新しいニューラル フレームワークであるグローバル構造誘導拡散モデル (GSDM) をさらに開発します。
提案された GSDM は、事前のテキストのグローバル構造を利用して、クリーン テキストを復元するための効率的な拡散モデルを開発します。
私たちのアプローチの有効性は、認識精度と画像品質の両方の大幅な向上を含む徹底的な実証研究によって実証されています。
これらの発見は、私たちの方法の有効性を強調するだけでなく、テキスト画像の理解と処理のより広い分野を強化するその可能性を強調します。
コードとデータセットは https://github.com/blackprotoss/GSDM から入手できます。

要約(オリジナル)

Real-world text can be damaged by corrosion issues caused by environmental or human factors, which hinder the preservation of the complete styles of texts, e.g., texture and structure. These corrosion issues, such as graffiti signs and incomplete signatures, bring difficulties in understanding the texts, thereby posing significant challenges to downstream applications, e.g., scene text recognition and signature identification. Notably, current inpainting techniques often fail to adequately address this problem and have difficulties restoring accurate text images along with reasonable and consistent styles. Formulating this as an open problem of text image inpainting, this paper aims to build a benchmark to facilitate its study. In doing so, we establish two specific text inpainting datasets which contain scene text images and handwritten text images, respectively. Each of them includes images revamped by real-life and synthetic datasets, featuring pairs of original images, corrupted images, and other assistant information. On top of the datasets, we further develop a novel neural framework, Global Structure-guided Diffusion Model (GSDM), as a potential solution. Leveraging the global structure of the text as a prior, the proposed GSDM develops an efficient diffusion model to recover clean texts. The efficacy of our approach is demonstrated by thorough empirical study, including a substantial boost in both recognition accuracy and image quality. These findings not only highlight the effectiveness of our method but also underscore its potential to enhance the broader field of text image understanding and processing. Code and datasets are available at: https://github.com/blackprotoss/GSDM.

arxiv情報

著者 Shipeng Zhu,Pengfei Fang,Chenjie Zhu,Zuoyan Zhao,Qiang Xu,Hui Xue
発行日 2024-01-26 13:01:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク