要約
光学式文字認識(OCR)は、スキャンまたはデジタル化されたテキスト画像から自動的にテキストを抽出することを可能にしますが、その一方で、これらの画像から貴重なテキストや機密性の高いテキストを簡単に海賊版にすることもできます。テキスト画像内の文字を歪めることでOCRの海賊行為を防止する従来の方法は、海賊行為者がテキスト画像の任意の部分をキャプチャできるため、実世界のシナリオでは実用的ではなく、防御の効果がなくなってしまう。本研究では、文字の代わりにテキスト画像のアンダーペインティングを変更するUniversal Defensive Underpainting Patch (UDUP)と呼ばれる新規かつ効果的な防御メカニズムを提案する。UDUPは、あらゆるサイズのテキスト画像に対してオーバーラップしないアンダーペインティングを生成できる、小さな固定サイズの防御パッチを作成するための反復最適化プロセスによって作成される。実験結果によると、UDUPはどのようなスクリーンショット範囲や複雑な画像背景の設定下でも、不正なOCRを効果的に防御する。UDUPは、文字の内容、サイズ、色、言語にとらわれず、拡大縮小や圧縮などの典型的な画像操作にも頑健です。さらに、UDUPの移植性は、いくつかの既製のOCRを回避することで実証されている。コードはhttps://github.com/QRICKDD/UDUP。
要約(オリジナル)
Optical Character Recognition (OCR) enables automatic text extraction from scanned or digitized text images, but it also makes it easy to pirate valuable or sensitive text from these images. Previous methods to prevent OCR piracy by distorting characters in text images are impractical in real-world scenarios, as pirates can capture arbitrary portions of the text images, rendering the defenses ineffective. In this work, we propose a novel and effective defense mechanism termed the Universal Defensive Underpainting Patch (UDUP) that modifies the underpainting of text images instead of the characters. UDUP is created through an iterative optimization process to craft a small, fixed-size defensive patch that can generate non-overlapping underpainting for text images of any size. Experimental results show that UDUP effectively defends against unauthorized OCR under the setting of any screenshot range or complex image background. It is agnostic to the content, size, colors, and languages of characters, and is robust to typical image operations such as scaling and compressing. In addition, the transferability of UDUP is demonstrated by evading several off-the-shelf OCRs. The code is available at https://github.com/QRICKDD/UDUP.
arxiv情報
著者 | JiaCheng Deng,Li Dong,Jiahao Chen,Diqun Yan,Rangding Wang,Dengpan Ye,Lingchen Zhao,Jinyu Tian |
発行日 | 2023-08-04 15:07:20+00:00 |
arxivサイト | arxiv_id(pdf) |