CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation

要約

デジタル古代近東研究 (DANES) コミュニティの課題に動機付けられ、私たちは、3,000 年以上、少なくとも 8 つの主要言語で使用されている粘土板に刻印された 3D 文字である楔形文字を処理するためのデジタル ツールを開発しています。
それは時間と空間の経過とともに変化した何千もの文字で構成されています。
写真は機械学習に使用できる最も一般的な表現ですが、インク描画は解釈されやすいです。
最適な 3D データセットが利用可能になりつつあります。
私たちは、約 500 個の注釈付きタブレットで構成される HeiCuBeDa および MaiCuBeDa データセットを作成して使用しました。
混合画像データに対する新しい OCR のようなアプローチのために、3D レンダリングと写真の間で注釈を転送するための追加のマッピング ツールを提供します。
私たちの標識位置特定では、RepPoints 検出器を使用して文字の位置を境界ボックスとして予測します。
私たちは、GigaMesh の MSII (曲率、https://gigamesh.eu を参照) ベースのレンダリング、フォン シェーディング 3D モデル、写真、および照明増強からの画像データを使用します。
結果は、標識検出にレンダリングされた 3D 画像を使用した方が、写真に対する他の作業よりも優れたパフォーマンスを発揮することを示しています。
さらに、私たちのアプローチは写真のみについてはかなり良好な結果をもたらしますが、混合データセットに使用するのが最適です。
さらに重要なのは、Phong レンダリング、特に MSII レンダリングにより、地球規模で最大のデータセットである写真の結果が向上することです。

要約(オリジナル)

Motivated by the challenges of the Digital Ancient Near Eastern Studies (DANES) community, we develop digital tools for processing cuneiform script being a 3D script imprinted into clay tablets used for more than three millennia and at least eight major languages. It consists of thousands of characters that have changed over time and space. Photographs are the most common representations usable for machine learning, while ink drawings are prone to interpretation. Best suited 3D datasets that are becoming available. We created and used the HeiCuBeDa and MaiCuBeDa datasets, which consist of around 500 annotated tablets. For our novel OCR-like approach to mixed image data, we provide an additional mapping tool for transferring annotations between 3D renderings and photographs. Our sign localization uses a RepPoints detector to predict the locations of characters as bounding boxes. We use image data from GigaMesh’s MSII (curvature, see https://gigamesh.eu) based rendering, Phong-shaded 3D models, and photographs as well as illumination augmentation. The results show that using rendered 3D images for sign detection performs better than other work on photographs. In addition, our approach gives reasonably good results for photographs only, while it is best used for mixed datasets. More importantly, the Phong renderings, and especially the MSII renderings, improve the results on photographs, which is the largest dataset on a global scale.

arxiv情報

著者 Ernst Stötzner,Timo Homburg,Hubert Mara
発行日 2023-08-22 08:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク