NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement

要約

現実世界の文書はさまざまな形で劣化する可能性があり、多くの場合、光学式文字認識 (OCR) システムの精度が低下します。
したがって、文書のテキストと主要な特徴を維持しながらノイズを除去するには、重要な前処理ステップが不可欠です。
この論文では、劣化した文書の元の品質を復元するように設計された拡散確率モデル (DPM) に基づく新しい生成フレームワークである NAF-DPM を提案します。
DPM は生成される画像の品質が高いことで知られていますが、推論時間が長いことでも知られています。
この問題を軽減するために、DPM に効率的な非線形活性化不要 (NAF) ネットワークを提供し、数回の反復で収束できる常微分方程式の高速ソルバーをサンプラーとして採用します。
テキスト文字をより適切に保存するために、畳み込みリカレント ニューラル ネットワークに基づく追加の微分可能モジュールを導入し、トレーニング中の OCR システムの動作をシミュレートします。
さまざまなデータセットに対して行われた実験は、ピクセルレベルと知覚的類似性メトリクスの点で最先端のパフォーマンスを達成するという、私たちのアプローチの優位性を示しています。
さらに、この結果は、私たちのフレームワークによって強化された現実世界の文書画像を転写する際に、OCR システムによって文字エラーが顕著に減少することを示しています。
コードと事前トレーニングされたモデルは https://github.com/ispamm/NAF-DPM で入手できます。

要約(オリジナル)

Real-world documents may suffer various forms of degradation, often resulting in lower accuracy in optical character recognition (OCR) systems. Therefore, a crucial preprocessing step is essential to eliminate noise while preserving text and key features of documents. In this paper, we propose NAF-DPM, a novel generative framework based on a diffusion probabilistic model (DPM) designed to restore the original quality of degraded documents. While DPMs are recognized for their high-quality generated images, they are also known for their large inference time. To mitigate this problem we provide the DPM with an efficient nonlinear activation-free (NAF) network and we employ as a sampler a fast solver of ordinary differential equations, which can converge in a few iterations. To better preserve text characters, we introduce an additional differentiable module based on convolutional recurrent neural networks, simulating the behavior of an OCR system during training. Experiments conducted on various datasets showcase the superiority of our approach, achieving state-of-the-art performance in terms of pixel-level and perceptual similarity metrics. Furthermore, the results demonstrate a notable character error reduction made by OCR systems when transcribing real-world document images enhanced by our framework. Code and pre-trained models are available at https://github.com/ispamm/NAF-DPM.

arxiv情報

著者 Giordano Cicchetti,Danilo Comminiello
発行日 2024-04-08 16:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク