要約
タイトル:変形可能トランスフォーマーを用いたエンド・トゥ・エンドの半教師付き表検出に向けて
要約:
– 表検出とは、文書画像内の表オブジェクトを分類し、位置決定するタスクである。
– 深層学習手法の進歩により、表検出において顕著な成功がみられている。ただし、これらのモデルを効果的に訓練するには、多くのラベルデータが必要である。
– このため、多くの半教師付きアプローチが導入され、大量のラベルデータを必要としないようにする。これらのアプローチでは、アンカープロポーザルに依存するCNNベースの検出器が使用され、NMSのような後処理段階もある。
– そこで、この論文では、変形可能トランスフォーマーを用いた新しいエンド・トゥ・エンドの半教師付き表検出方法を提案する。
– 私たちは、PubLayNet、DocBank、ICADR-19、TableBankのデータセットで半教師付きの方法を評価し、従来の方法よりも優れた性能を発揮することを確認した。
– TableBank-bothデータセットの10%のラベルの場合、完全教師付き方法(変形可能トランスフォーマー)よりも+3.4ポイント、PubLayNetデータセットの10%のラベルの場合、以前のCNNベースの半教師付き方法(Soft Teacher)よりも+1.8ポイント優れている。
– この研究が、半教師付きと無教師付きの表検出方法に向けた新たな可能性を開くことを期待する。
要約(オリジナル)
Table detection is the task of classifying and localizing table objects within document images. With the recent development in deep learning methods, we observe remarkable success in table detection. However, a significant amount of labeled data is required to train these models effectively. Many semi-supervised approaches are introduced to mitigate the need for a substantial amount of label data. These approaches use CNN-based detectors that rely on anchor proposals and post-processing stages such as NMS. To tackle these limitations, this paper presents a novel end-to-end semi-supervised table detection method that employs the deformable transformer for detecting table objects. We evaluate our semi-supervised method on PubLayNet, DocBank, ICADR-19 and TableBank datasets, and it achieves superior performance compared to previous methods. It outperforms the fully supervised method (Deformable transformer) by +3.4 points on 10\% labels of TableBank-both dataset and the previous CNN-based semi-supervised approach (Soft Teacher) by +1.8 points on 10\% labels of PubLayNet dataset. We hope this work opens new possibilities towards semi-supervised and unsupervised table detection methods.
arxiv情報
著者 | Tahira Shehzadi,Khurram Azeem Hashmi,Didier Stricker,Marcus Liwicki,Muhammad Zeshan Afzal |
発行日 | 2023-05-07 20:06:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI