Table Detection for Visually Rich Document Images

要約

表検出 (TD) は、文書を視覚的に豊かに理解するための基本的なタスクです。
現在の研究では、通常、TD 問題を物体検出問題として定式化し、その後、Intersection over Union (IoU) ベースのメトリックを活用してモデルのパフォーマンスを評価し、IoU ベースの損失関数を利用してモデルを最適化します。
TD アプリケーションでは通常、すべてのテーブルの内容をカバーし、情報損失を回避する予測結果が必要です。
ただし、IoU および IoU ベースの損失関数は、予測結果の情報損失の程度を直接反映することはできません。
したがって、IoU をグラウンド トゥルース カバレッジ期間と予測カバレッジ期間に分離し、前者を予測結果の情報損失の測定に使用できるようにすることを提案します。
さらに、ドキュメント内の表は、人間の読者が読みやすく解釈しやすいように重要な情報を要約するように設計されているため、通常は大きく、まばらに分散され、重複する部分がありません。
したがって、この研究では、SparseR-CNN をベースモデルとして使用し、ガウスノイズ拡張画像サイズ領域提案と多対 1 ラベル割り当てを使用してモデルをさらに改良します。
提案された手法の有効性を実証し、最先端の手法と公平に比較​​するために、実験を実施し、IoU ベースの評価メトリクスを使用してモデルのパフォーマンスを評価します。
実験結果は、提案された方法が、さまざまなデータセットの異なる IoU ベースのメトリクスの下で、一貫して最先端の方法よりも優れたパフォーマンスを発揮できることを示しています。
IoU ベースの損失関数と評価指標を提案された分離 IoU の対応物で置き換えることにより、TD アプリケーションに対する提案された分離 IoU の優位性を示すためにさらなる実験を実行します。
実験結果は、私たちが提案した分離された IoU 損失が、モデルによる情報損失の軽減を促進できることを示しています。

要約(オリジナル)

Table Detection (TD) is a fundamental task towards visually rich document understanding. Current studies usually formulate the TD problem as an object detection problem, then leverage Intersection over Union (IoU) based metrics to evaluate the model performance and IoU-based loss functions to optimize the model. TD applications usually require the prediction results to cover all the table contents and avoid information loss. However, IoU and IoU-based loss functions cannot directly reflect the degree of information loss for the prediction results. Therefore, we propose to decouple IoU into a ground truth coverage term and a prediction coverage term, in which the former can be used to measure the information loss of the prediction results. Besides, tables in the documents are usually large, sparsely distributed, and have no overlaps because they are designed to summarize essential information to make it easy to read and interpret for human readers. Therefore, in this study, we use SparseR-CNN as the base model, and further improve the model by using Gaussian Noise Augmented Image Size region proposals and many-to-one label assignments. To demonstrate the effectiveness of proposed method and compare with state-of-the-art methods fairly, we conduct experiments and use IoU-based evaluation metrics to evaluate the model performance. The experimental results show that the proposed method can consistently outperform state-of-the-art methods under different IoU-based metric on a variety of datasets. We conduct further experiments to show the superiority of the proposed decoupled IoU for the TD applications by replacing the IoU-based loss functions and evaluation metrics with proposed decoupled IoU counterparts. The experimental results show that our proposed decoupled IoU loss can encourage the model to alleviate information loss.

arxiv情報

著者 Bin Xiao,Murat Simsek,Burak Kantarci,Ala Abu Alkheir
発行日 2023-05-30 16:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク