要約
ドキュメント レイアウト分析は、ドキュメント ページ内のさまざまな意味論的領域を識別するタスクであり、コンピューター科学者と人文科学者の両方にとって非常に興味深い主題です。これは、前者にとってはさらなる分析タスクに向けた基本的なステップであり、人文科学者にとっては強力なツールであるためです。
後者の文書の研究を改善し、促進します。
しかし、現在文献に存在する研究の多くは、特に利用可能なデータセットに関しては、両方の世界のニーズを満たしておらず、特にコンピューター サイエンス側のニーズや一般的な慣行に偏る傾向があり、
人文科学の実際のニーズを代表していないリソースに。
このため、本論文では、コンピュータ ビジョンと人文科学の分野の専門家が緊密に協力して開発した、ピクセル精度で重複がなくノイズのない新しいドキュメント レイアウト分析データセットである U-DIADS-Bib を紹介します。
さらに、グラウンド トゥルース セグメンテーション マップの生成に必要な、時間のかかる手動アノテーション プロセスに代表される負担を軽減するために、新しいコンピュータ支援セグメンテーション パイプラインを提案します。
最後に、できる限り少ないサンプルでこのタスクに対処できるモデルとソリューションの開発を促進することを目的として、データセットの標準化された数ショット バージョン (U-DIADS-BibFS) を紹介します。これにより、より効果的なデータセットが可能になります。
多数のセグメンテーションを収集することが常に実現可能であるとは限らない、現実のシナリオで使用します。
要約(オリジナル)
Document Layout Analysis, which is the task of identifying different semantic regions inside of a document page, is a subject of great interest for both computer scientists and humanities scholars as it represents a fundamental step towards further analysis tasks for the former and a powerful tool to improve and facilitate the study of the documents for the latter. However, many of the works currently present in the literature, especially when it comes to the available datasets, fail to meet the needs of both worlds and, in particular, tend to lean towards the needs and common practices of the computer science side, leading to resources that are not representative of the humanities real needs. For this reason, the present paper introduces U-DIADS-Bib, a novel, pixel-precise, non-overlapping and noiseless document layout analysis dataset developed in close collaboration between specialists in the fields of computer vision and humanities. Furthermore, we propose a novel, computer-aided, segmentation pipeline in order to alleviate the burden represented by the time-consuming process of manual annotation, necessary for the generation of the ground truth segmentation maps. Finally, we present a standardized few-shot version of the dataset (U-DIADS-BibFS), with the aim of encouraging the development of models and solutions able to address this task with as few samples as possible, which would allow for more effective use in a real-world scenario, where collecting a large number of segmentations is not always feasible.
arxiv情報
著者 | Silvia Zottin,Axel De Nardin,Emanuela Colombi,Claudio Piciarelli,Filippo Pavan,Gian Luca Foresti |
発行日 | 2024-01-16 15:11:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google