EduceLab-Scrolls: Verifiable Recovery of Text from Herculaneum Papyri using X-ray CT

要約

私たちは、X 線 CT 画像を使用してヘルクラネウム パピルスの隠されたテキストを明らかにするための完全なソフトウェア パイプラインを紹介します。
この強化された仮想アンラッピング パイプラインは、機械学習と 3D イメージと 2D 画像をリンクする新しい幾何学的フレームワークを組み合わせています。
また、この問題に関する 20 年間の研究努力を表す包括的なオープン データセットである EduceLab-Scrolls も紹介します。
EduceLab-Scrolls には、小さな断片と無傷の巻かれた巻物の両方の体積測定 X 線 CT 画像のセットが含まれています。
データセットには、インク検出モデルの教師ありトレーニングで使用される 2D 画像ラベルも含まれています。
ラベル付けは、スクロール断片のスペクトル写真を同じ断片の X 線 CT 画像と位置合わせすることで可能になり、画像空間とモダリティの間に機械学習可能なマッピングが作成されます。
この調整により、X 線 CT における「目に見えない」カーボンインクの検出のための教師あり学習が可能になります。これは、人間の専門ラベラーでも「不可能」な作業です。
私たちの知る限り、これはこの種の最初の整列されたデータセットであり、遺産領域でこれまでにリリースされた最大のデータセットです。
私たちの方法は、既知のグラウンド トゥルースを使用して、巻物の断片上のテキストの正確な行を明らかにすることができます。
公開されたテキストは、視覚的な確認、定量的な画像指標、および学術的レビューを使用して検証されます。
EduceLab-Scrolls により、ここで紹介するヘルクラネウム パピルスに隠された文書の初めての発見も可能になりました。
研究が進むにつれて、EduceLab-Scrolls データセットからさらに多くのテキストの発見が得られると予想しています。

要約(オリジナル)

We present a complete software pipeline for revealing the hidden texts of the Herculaneum papyri using X-ray CT images. This enhanced virtual unwrapping pipeline combines machine learning with a novel geometric framework linking 3D and 2D images. We also present EduceLab-Scrolls, a comprehensive open dataset representing two decades of research effort on this problem. EduceLab-Scrolls contains a set of volumetric X-ray CT images of both small fragments and intact, rolled scrolls. The dataset also contains 2D image labels that are used in the supervised training of an ink detection model. Labeling is enabled by aligning spectral photography of scroll fragments with X-ray CT images of the same fragments, thus creating a machine-learnable mapping between image spaces and modalities. This alignment permits supervised learning for the detection of ‘invisible’ carbon ink in X-ray CT, a task that is ‘impossible’ even for human expert labelers. To our knowledge, this is the first aligned dataset of its kind and is the largest dataset ever released in the heritage domain. Our method is capable of revealing accurate lines of text on scroll fragments with known ground truth. Revealed text is verified using visual confirmation, quantitative image metrics, and scholarly review. EduceLab-Scrolls has also enabled the discovery, for the first time, of hidden texts from the Herculaneum papyri, which we present here. We anticipate that the EduceLab-Scrolls dataset will generate more textual discovery as research continues.

arxiv情報

著者 Stephen Parsons,C. Seth Parker,Christy Chapman,Mami Hayashida,W. Brent Seales
発行日 2024-05-20 15:20:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク