CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging Handwritten Documents using Deep Feature Learning from JPEG Coefficients

要約

手書き文書内のテキスト行の自動ローカリゼーションは、依然として未解決で挑戦的な研究課題です。
複雑な手書き文書画像の場合をそれぞれの圧縮表現で直接セグメンテーションすることを考慮すると、行間の不均等な間隔、テキストの揺れや接触、傾きの存在などのさまざまな書き込みの問題がさらに困難になります。
これは、圧縮ドキュメントを処理する従来の方法は解凍を介して行われるためですが、この論文では、完全な解凍を行わずに JPEG 圧縮係数から直接深層特徴学習を使用して、JPEG 圧縮領域でテキスト行の位置特定を達成するアイデアを提案するためです。

Compressed Text-Line Localization Network (CompTLL-UNet) として知られる修正された U-Net アーキテクチャは、これを実現するために設計されています。
このモデルは、ICDAR2017 (cBAD) および ICDAR2019 (cBAD) を含む JPEG 圧縮バージョンのベンチマーク データセットを使用してトレーニングおよびテストされ、JPEG 圧縮ドメインでのストレージと計算コストの削減による最先端のパフォーマンスを報告します。

要約(オリジナル)

Automatic localization of text-lines in handwritten documents is still an open and challenging research problem. Various writing issues such as uneven spacing between the lines, oscillating and touching text, and the presence of skew become much more challenging when the case of complex handwritten document images are considered for segmentation directly in their respective compressed representation. This is because, the conventional way of processing compressed documents is through decompression, but here in this paper, we propose an idea that employs deep feature learning directly from the JPEG compressed coefficients without full decompression to accomplish text-line localization in the JPEG compressed domain. A modified U-Net architecture known as Compressed Text-Line Localization Network (CompTLL-UNet) is designed to accomplish it. The model is trained and tested with JPEG compressed version of benchmark datasets including ICDAR2017 (cBAD) and ICDAR2019 (cBAD), reporting the state-of-the-art performance with reduced storage and computational costs in the JPEG compressed domain.

arxiv情報

著者 Bulla Rajesh,Sk Mahafuz Zaman,Mohammed Javed,P. Nagabhushan
発行日 2023-08-11 14:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク