要約
文書分析分野のほとんどのデータセットは高度に標準化されたラベルを利用しており、これにより特定のタスクが簡素化される一方で、人文科学の研究には直接適用できない出力が生成されることがよくあります。
対照的に、15 世紀初頭の歴史的文書で構成されるニュルンベルク書簡データセットは、複数の種類の転写と付随するメタデータを提供することで、このギャップに対処しています。
このアプローチにより、人文科学のニーズにより密接に一致した手法の開発が可能になります。
データセットには、10 人の筆記者によって書かれた 1711 のラベル付きページを含む 4 冊の書籍が含まれています。
手書きテキスト認識には、基本、外交、正規化の 3 種類の転写が提供されています。
後者の 2 つについては、展開された略語を含むバージョンと含まないバージョンも利用できます。
レター ID とライター ID の組み合わせにより、ページ内のライターの変更によるライターの識別がサポートされます。
技術的な検証では、さまざまなタスクのベースラインを確立し、データの一貫性を実証し、将来の研究の基礎となるベンチマークを提供しました。
要約(オリジナル)
Most datasets in the field of document analysis utilize highly standardized labels, which, while simplifying specific tasks, often produce outputs that are not directly applicable to humanities research. In contrast, the Nuremberg Letterbooks dataset, which comprises historical documents from the early 15th century, addresses this gap by providing multiple types of transcriptions and accompanying metadata. This approach allows for developing methods that are more closely aligned with the needs of the humanities. The dataset includes 4 books containing 1711 labeled pages written by 10 scribes. Three types of transcriptions are provided for handwritten text recognition: Basic, diplomatic, and regularized. For the latter two, versions with and without expanded abbreviations are also available. A combination of letter ID and writer ID supports writer identification due to changing writers within pages. In the technical validation, we established baselines for various tasks, demonstrating data consistency and providing benchmarks for future research to build upon.
arxiv情報
著者 | Martin Mayr,Julian Krenz,Katharina Neumeier,Anna Bub,Simon Bürcky,Nina Brolich,Klaus Herbers,Mechthild Habermann,Peter Fleischmann,Andreas Maier,Vincent Christlein |
発行日 | 2024-11-11 17:08:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google