要約
文書画像内の透かしテキストの検出により、多くの場合未調査の情報源へのアクセスが可能になり、記録の範囲、対象者、場合によっては信頼性についての重要な証拠が得られます。
テキストスポッティングの問題に起因して、文書内の透かしの検出と理解にも同じ困難が引き継がれます。実際の文書にはさまざまなフォント、サイズ、形式があり、一般的な認識が非常に困難な問題になります。
この分野のリソース不足に対処し、さらなる研究を推進するために、透かしテキスト パターンのレンダリング手順である Wrender を使用して生成された 65,447 個のデータ サンプルを含む新しいベンチマーク (K-Watermark) を提案します。
人間の評価者を使用した妥当性調査では、事前に生成された透かし入り文書に対する信頼性スコアが 0.51 でした。
データセットとレンダリング技術の有用性を証明するために、描画されたテキストを予測しながら透かしテキストの境界ボックス インスタンスを検出するためのエンドツーエンド ソリューション (Wextract) を開発しました。
この特定のタスクに対処するために、分散最小化損失と階層的自己注意メカニズムを導入します。
私たちの知る限り、私たちはベースラインを検出で 5 AP ポイント、文字精度で 4 ポイント上回っている文書から透かしを取得するための評価ベンチマークと完全なソリューションを提案した最初の企業です。
要約(オリジナル)
Watermark text spotting in document images can offer access to an often unexplored source of information, providing crucial evidence about a record’s scope, audience and sometimes even authenticity. Stemming from the problem of text spotting, detecting and understanding watermarks in documents inherits the same hardships – in the wild, writing can come in various fonts, sizes and forms, making generic recognition a very difficult problem. To address the lack of resources in this field and propel further research, we propose a novel benchmark (K-Watermark) containing 65,447 data samples generated using Wrender, a watermark text patterns rendering procedure. A validity study using humans raters yields an authenticity score of 0.51 against pre-generated watermarked documents. To prove the usefulness of the dataset and rendering technique, we developed an end-to-end solution (Wextract) for detecting the bounding box instances of watermark text, while predicting the depicted text. To deal with this specific task, we introduce a variance minimization loss and a hierarchical self-attention mechanism. To the best of our knowledge, we are the first to propose an evaluation benchmark and a complete solution for retrieving watermarks from documents surpassing baselines by 5 AP points in detection and 4 points in character accuracy.
arxiv情報
著者 | Mateusz Krubiński,Stefan Matcovici,Diana Grigore,Daniel Voinea,Alin-Ionut Popa |
発行日 | 2024-01-11 10:32:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google