要約
シーン テキスト イメージ超解像度 (STISR) は、低解像度のシーン テキスト イメージの解像度と可読性を同時に向上させ、下流の認識タスクのパフォーマンスを向上させることを目的としています。
シーンのテキスト画像における 2 つの要素、視覚構造と意味情報は、認識パフォーマンスに大きく影響します。
これらの要因による影響を軽減するために、この文書では事前拡張アテンション ネットワーク (PEAN) を提案します。
具体的には、注意ベースの変調モジュールを利用して、テキストの形状にかかわらず、画像のローカルおよびグローバルな依存関係をきちんと認識することで、シーンのテキスト画像を理解します。
一方、拡散ベースのモジュールは、事前のテキストを強化するために開発されており、SR ネットワークがセマンティック精度の高い SR 画像を生成するためのより適切なガイダンスを提供します。
さらに、マルチタスク学習パラダイムを採用してネットワークを最適化し、モデルが読みやすい SR 画像を生成できるようにします。
その結果、PEAN は TextZoom ベンチマークで新しい SOTA 結果を確立しました。
SR ネットワークのパフォーマンスを向上させる手段として、強化されたテキスト事前の重要性を分析するための実験も行われています。
コードは https://github.com/jdfxzzy/PEAN で利用可能になります。
要約(オリジナル)
Scene text image super-resolution (STISR) aims at simultaneously increasing the resolution and readability of low-resolution scene text images, thus boosting the performance of the downstream recognition task. Two factors in scene text images, visual structure and semantic information, affect the recognition performance significantly. To mitigate the effects from these factors, this paper proposes a Prior-Enhanced Attention Network (PEAN). Specifically, an attention-based modulation module is leveraged to understand scene text images by neatly perceiving the local and global dependence of images, despite the shape of the text. Meanwhile, a diffusion-based module is developed to enhance the text prior, hence offering better guidance for the SR network to generate SR images with higher semantic accuracy. Additionally, a multi-task learning paradigm is employed to optimize the network, enabling the model to generate legible SR images. As a result, PEAN establishes new SOTA results on the TextZoom benchmark. Experiments are also conducted to analyze the importance of the enhanced text prior as a means of improving the performance of the SR network. Code will be made available at https://github.com/jdfxzzy/PEAN.
arxiv情報
著者 | Zuoyan Zhao,Hui Xue,Pengfei Fang,Shipeng Zhu |
発行日 | 2024-04-15 08:43:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google