要約
書誌メタデータの手動デジタル化は、特に文書間で非常に可変的なフォーマットを備えた歴史的および現実世界のアーカイブのために、時間がかかり、労働集約的です。
機械学習の進歩にもかかわらず、メタデータ抽出のための専用データセットがないことは自動化を妨げます。
このギャップに対処するために、構造化された書誌メタデータが注釈されたスキャンされたタイトルページのデータセットであるBibliopageを紹介します。
データセットは、14個のチェコ語の図書館から収集された約2,000個のモノグラフタイトルページで構成されており、幅広い出版期間、タイポグラフィスタイル、レイアウト構造にまたがっています。
各タイトルページには、タイトル、貢献者、出版物メタデータを含む16の書誌属性と、境界ボックスの形の正確な位置情報が注釈されています。
このデータセットから構造化された情報を抽出するために、YoloやDETRなどのオブジェクト検出モデルを変圧器ベースのOCRと組み合わせたオブジェクト検出モデルを評価し、52の最大マップとF1スコア59のF1スコアを達成しました。さらに、Llama 3.2-VisionおよびGPT-4Oを含むLlama 3.2-VisionおよびGPT-4Oを含むさまざまな視覚的大手言語モデルのパフォーマンスを評価します。
文書の理解、文書の質問への回答、およびドキュメント情報抽出に貢献する書誌的メタデータ抽出。
データセットと評価スクリプトは、https://github.com/dcgm/biblio-datasetで利用できます
要約(オリジナル)
Manual digitization of bibliographic metadata is time consuming and labor intensive, especially for historical and real-world archives with highly variable formatting across documents. Despite advances in machine learning, the absence of dedicated datasets for metadata extraction hinders automation. To address this gap, we introduce BiblioPage, a dataset of scanned title pages annotated with structured bibliographic metadata. The dataset consists of approximately 2,000 monograph title pages collected from 14 Czech libraries, spanning a wide range of publication periods, typographic styles, and layout structures. Each title page is annotated with 16 bibliographic attributes, including title, contributors, and publication metadata, along with precise positional information in the form of bounding boxes. To extract structured information from this dataset, we valuated object detection models such as YOLO and DETR combined with transformer-based OCR, achieving a maximum mAP of 52 and an F1 score of 59. Additionally, we assess the performance of various visual large language models, including LlamA 3.2-Vision and GPT-4o, with the best model reaching an F1 score of 67. BiblioPage serves as a real-world benchmark for bibliographic metadata extraction, contributing to document understanding, document question answering, and document information extraction. Dataset and evaluation scripts are availible at: https://github.com/DCGM/biblio-dataset
arxiv情報
著者 | Jan Kohút,Martin Dočekal,Michal Hradiš,Marek Vaško |
発行日 | 2025-03-25 13:46:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google