Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval

要約

このペーパーでは、歴史的文脈における大規模な文書検索の課題に対処する、立法歴史文書分析システム向けに調整された包括的なベンチマークである Fetch-A-Set (FAS) を紹介します。
このベンチマークは、17 世紀に遡る膨大な文書リポジトリで構成されており、トレーニング リソースと検索システムの評価ベンチマークの両方として機能します。
文化遺産の領域内の複雑な抽出作業に焦点を当てることで、文献の重大なギャップを埋めます。
提案されたベンチマークは、文書の可読性のさまざまなレベルに対応しながら、クエリのテキストから画像への検索や文書断片からの画像からテキストへのトピック抽出など、歴史的文書分析の多面的な問題に取り組んでいます。
このベンチマークは、特に幅広い歴史的スペクトルを特徴とするシナリオにおいて、堅牢な歴史文書検索システムの開発と評価のためのベースラインとデータを提供することにより、この分野の進歩を促進することを目的としています。

要約(オリジナル)

This paper introduces Fetch-A-Set (FAS), a comprehensive benchmark tailored for legislative historical document analysis systems, addressing the challenges of large-scale document retrieval in historical contexts. The benchmark comprises a vast repository of documents dating back to the XVII century, serving both as a training resource and an evaluation benchmark for retrieval systems. It fills a critical gap in the literature by focusing on complex extractive tasks within the domain of cultural heritage. The proposed benchmark tackles the multifaceted problem of historical document analysis, including text-to-image retrieval for queries and image-to-text topic extraction from document fragments, all while accommodating varying levels of document legibility. This benchmark aims to spur advancements in the field by providing baselines and data for the development and evaluation of robust historical document retrieval systems, particularly in scenarios characterized by wide historical spectrum.

arxiv情報

著者 Adrià Molina,Oriol Ramos Terrades,Josep Lladós
発行日 2024-06-11 14:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク