DocMAE: Document Image Rectification via Self-supervised Representation Learning

要約

【タイトル】DocMAE: 自己教師あり表現学習を用いた文書画像の補正

【要約】

– 膨大な努力が文書画像の補正に注がれているが、そのような歪んだ画像の効果的な表現方法は未だに十分に探究されていない。
– 本論文では、文書画像の構造的手掛かりをマスクしたオートエンコーダを用いてエンコードし、文書の境界線やテキストラインといった補正に役立てる、新しい自己教師ありフレームワークであるDocMAEを提案する。
– 具体的には、最初に背景を除去した文書画像のランダムなパッチをマスクし、欠落したピクセルを再構築することで、文書の歪みを自己教師ありで学習させる。
– 補正タスクにおける転送性能は、本手法の有効性を証明しているほか、広範な実験によってもその有効性が示されている。

要約(オリジナル)

Tremendous efforts have been made on document image rectification, but how to learn effective representation of such distorted images is still under-explored. In this paper, we present DocMAE, a novel self-supervised framework for document image rectification. Our motivation is to encode the structural cues in document images by leveraging masked autoencoder to benefit the rectification, i.e., the document boundaries, and text lines. Specifically, we first mask random patches of the background-excluded document images and then reconstruct the missing pixels. With such a self-supervised learning approach, the network is encouraged to learn the intrinsic structure of deformed documents by restoring document boundaries and missing text lines. Transfer performance in the downstream rectification task validates the effectiveness of our method. Extensive experiments are conducted to demonstrate the effectiveness of our method.

arxiv情報

著者 Shaokai Liu,Hao Feng,Wengang Zhou,Houqiang Li,Cong Liu,Feng Wu
発行日 2023-04-20 14:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク