A comparative analysis of SRGAN models

要約

この研究では、パイプラインを使用して劣化を受ける実世界の画像のベンチマーク データセット上で、複数の最先端の SRGAN (超解像度生成敵対的ネットワーク) モデル、ESRGAN、Real-ESRGAN、EDSR のパフォーマンスを評価します。

私たちの結果は、一部のモデルが視覚的な品質を維持しながら入力画像の解像度を大幅に向上させているようであることを示しています。これは Tesseract OCR エンジンを使用して評価されています。
ハグフェイスの EDSR-BASE モデルは、最小限の計算オーバーヘッドで定量的メトリクスと主観的な視覚品質評価の両方の点で残りの候補モデルよりも優れていることがわかります。
具体的には、EDSR は、より高いピーク信号対雑音比 (PSNR) および構造類似性指数 (SSIM) 値を持つ画像を生成し、Tesseract OCR エンジンで高品質の OCR 結果を返すことが見られます。
これらの発見は、EDSR が単一画像の超解像度に対する堅牢かつ効果的なアプローチであり、高品質の視覚的忠実度が重要であり、コンピューティングが最適化されているアプリケーションに特に適している可能性があることを示唆しています。

要約(オリジナル)

In this study, we evaluate the performance of multiple state-of-the-art SRGAN (Super Resolution Generative Adversarial Network) models, ESRGAN, Real-ESRGAN and EDSR, on a benchmark dataset of real-world images which undergo degradation using a pipeline. Our results show that some models seem to significantly increase the resolution of the input images while preserving their visual quality, this is assessed using Tesseract OCR engine. We observe that EDSR-BASE model from huggingface outperforms the remaining candidate models in terms of both quantitative metrics and subjective visual quality assessments with least compute overhead. Specifically, EDSR generates images with higher peak signal-to-noise ratio (PSNR) and structural similarity index (SSIM) values and are seen to return high quality OCR results with Tesseract OCR engine. These findings suggest that EDSR is a robust and effective approach for single-image super-resolution and may be particularly well-suited for applications where high-quality visual fidelity is critical and optimized compute.

arxiv情報

著者 Fatemeh Rezapoor Nikroo,Ajinkya Deshmukh,Anantha Sharma,Adrian Tam,Kaarthik Kumar,Cleo Norris,Aditya Dangi
発行日 2023-07-19 14:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, eess.IV パーマリンク