要約
スマートフォンまたはスキャナーがキャプチャしたドキュメントページにはテーブルが含まれていることがよくありますが、手動抽出は遅く、エラーが発生しやすいです。
視覚的に多様なテーブルレイアウトと整列したグラウンドトゥルースマスクを備えた現実的な2列ページを合成する自動ラテックスベースのパイプラインを導入します。
生成されたコーパスは、現実世界のマーモットベンチマークを増強し、TableNetの体系的な解決研究を可能にします。
合成データでTableNetをトレーニングすると、256×256の入力解像度で合成テストセットで4.04%のピクセルごとのXORエラーが得られ、1024×1024で4.33%が達成されます。
マーモットベンチマークで最高のパフォーマンスは9.18%(256×256)であり、自動化を通じて手動注釈の取り組みを削減します。
要約(オリジナル)
Document pages captured by smartphones or scanners often contain tables, yet manual extraction is slow and error-prone. We introduce an automated LaTeX-based pipeline that synthesizes realistic two-column pages with visually diverse table layouts and aligned ground-truth masks. The generated corpus augments the real-world Marmot benchmark and enables a systematic resolution study of TableNet. Training TableNet on our synthetic data achieves a pixel-wise XOR error of 4.04% on our synthetic test set with a 256×256 input resolution, and 4.33% with 1024×1024. The best performance on the Marmot benchmark is 9.18% (at 256×256), while cutting manual annotation effort through automation.
arxiv情報
著者 | Krishna Sahukara,Zineddine Bettouche,Andreas Fischer |
発行日 | 2025-06-17 14:41:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google