Synthetic Data Augmentation for Table Detection: Re-evaluating TableNet’s Performance with Automatically Generated Document Images

要約

スマートフォンまたはスキャナーがキャプチャしたドキュメントページにはテーブルが含まれていることがよくありますが、手動抽出は遅く、エラーが発生しやすいです。
視覚的に多様なテーブルレイアウトと整列したグラウンドトゥルースマスクを備えた現実的な2列ページを合成する自動ラテックスベースのパイプラインを導入します。
生成されたコーパスは、現実世界のマーモットベンチマークを増強し、TableNetの体系的な解決研究を可能にします。
合成データでTableNetをトレーニングすると、256×256の入力解像度で合成テストセットで4.04%のピクセルごとのXORエラーが得られ、1024×1024で4.33%が達成されます。
マーモットベンチマークで最高のパフォーマンスは9.18%(256×256)であり、自動化を通じて手動注釈の取り組みを削減します。

要約(オリジナル)

Document pages captured by smartphones or scanners often contain tables, yet manual extraction is slow and error-prone. We introduce an automated LaTeX-based pipeline that synthesizes realistic two-column pages with visually diverse table layouts and aligned ground-truth masks. The generated corpus augments the real-world Marmot benchmark and enables a systematic resolution study of TableNet. Training TableNet on our synthetic data achieves a pixel-wise XOR error of 4.04% on our synthetic test set with a 256×256 input resolution, and 4.33% with 1024×1024. The best performance on the Marmot benchmark is 9.18% (at 256×256), while cutting manual annotation effort through automation.

arxiv情報

著者 Krishna Sahukara,Zineddine Bettouche,Andreas Fischer
発行日 2025-06-17 14:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク