要約
画像の 2 値化技術は、ワード スポッティング、ドキュメント検索、OCR などのさまざまなドキュメント画像解析 (DIA) アプリケーションに対応する、ノイズの多い画像や劣化した画像の強化に広く使用されています。
既存の技術のほとんどは、ピクセル画像を Convolution Neural Networks に供給してドキュメントの二値化を達成することに重点を置いています。これは、完全な解凍なしで処理する必要がある圧縮画像を扱う場合、効果的な結果を生み出さない可能性があります。
したがって、この研究論文では、Dual Discriminator Generative Adversarial Networks (DD-GAN) を採用することにより、文書画像の JPEG 圧縮ストリームを直接使用する文書画像の 2 値化のアイデアを提案します。
ここでは、グローバルとローカルの 2 つのディスクリミネーター ネットワークが異なる画像比率で機能し、フォーカル ロスをジェネレーター ロスとして使用します。
提案されたモデルは、さまざまなバージョンの DIBCO データセットで徹底的にテストされており、穴、消去または汚れたインク、ほこり、繊維の配置ミスなどの課題があります。
このモデルは、時間と空間の複雑さの両方の点で非常に堅牢で効率的であることが証明され、JPEG 圧縮ドメインで最先端のパフォーマンスも実現しました。
要約(オリジナル)
Image binarization techniques are being popularly used in enhancement of noisy and/or degraded images catering different Document Image Anlaysis (DIA) applications like word spotting, document retrieval, and OCR. Most of the existing techniques focus on feeding pixel images into the Convolution Neural Networks to accomplish document binarization, which may not produce effective results when working with compressed images that need to be processed without full decompression. Therefore in this research paper, the idea of document image binarization directly using JPEG compressed stream of document images is proposed by employing Dual Discriminator Generative Adversarial Networks (DD-GANs). Here the two discriminator networks – Global and Local work on different image ratios and use focal loss as generator loss. The proposed model has been thoroughly tested with different versions of DIBCO dataset having challenges like holes, erased or smudged ink, dust, and misplaced fibres. The model proved to be highly robust, efficient both in terms of time and space complexities, and also resulted in state-of-the-art performance in JPEG compressed domain.
arxiv情報
著者 | Bulla Rajesh,Manav Kamlesh Agrawal,Milan Bhuva,Kisalaya Kishore,Mohammed Javed |
発行日 | 2022-09-13 12:07:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google