VGTS: Visually Guided Text Spotting for Novel Categories in Historical Manuscripts

要約

歴史写本研究の分野では、学者は古代文書の中で新しい記号に頻繁に遭遇し、その識別と文書化に多大な労力を費やしています。
既存の物体検出方法は、既知のカテゴリに対して優れたパフォーマンスを達成しますが、再トレーニングせずに新しいシンボルを認識するのは困難です。
この制限に対処するために、1 つの注釈付きサポート サンプルを使用して新しい文字を正確に検出する Visually Guided Text Spotting (VGTS) アプローチを提案します。
VGTS のコアは、デュアル スペース アテンション (DSA) ブロックとジオメトリック マッチング (GM) ブロックで構成される空間アライメント モジュールです。
DSA ブロックは、人間の視覚スポッティング プロセスを模倣して、サポート画像およびクエリ画像内の識別可能な空間領域を特定し、焦点を当て、学習することを目的としています。
まず、チャネル間の関係を分析して重要な領域を特定することによってサポート イメージを洗練し、次に有益なキー ポイントに焦点を当ててクエリ イメージを洗練します。
一方、GM ブロックは 2 つの画像間の空間的対応を確立し、クエリ画像内のターゲット文字の正確な位置特定を可能にします。
低リソースのスポッティングタスクにおける例の不均衡問題に取り組むために、距離計量学習のための埋め込み空間の識別力を強化する新しいトーラス損失関数を開発します。
私たちのアプローチをさらに検証するために、中国の少数民族ナシ族に関連する古代トンバ象形文字 (DBH) を特徴とする新しいデータセットを導入します。
DBH データセットと、EGY、VML-HD、TKH、NC などの他の公開データセットに対する広範な実験により、VGTS が常に最先端の手法を上回っていることが示されています。
提案されたフレームワークは、歴史的な写本のテキストスポッティングに応用できる大きな可能性を示し、学者が最小限の注釈の労力で新しいシンボルを効率的に識別して文書化できるようにします。

要約(オリジナル)

In the field of historical manuscript research, scholars frequently encounter novel symbols in ancient texts, investing considerable effort in their identification and documentation. Although existing object detection methods achieve impressive performance on known categories, they struggle to recognize novel symbols without retraining. To address this limitation, we propose a Visually Guided Text Spotting (VGTS) approach that accurately spots novel characters using just one annotated support sample. The core of VGTS is a spatial alignment module consisting of a Dual Spatial Attention (DSA) block and a Geometric Matching (GM) block. The DSA block aims to identify, focus on, and learn discriminative spatial regions in the support and query images, mimicking the human visual spotting process. It first refines the support image by analyzing inter-channel relationships to identify critical areas, and then refines the query image by focusing on informative key points. The GM block, on the other hand, establishes the spatial correspondence between the two images, enabling accurate localization of the target character in the query image. To tackle the example imbalance problem in low-resource spotting tasks, we develop a novel torus loss function that enhances the discriminative power of the embedding space for distance metric learning. To further validate our approach, we introduce a new dataset featuring ancient Dongba hieroglyphics (DBH) associated with the Naxi minority of China. Extensive experiments on the DBH dataset and other public datasets, including EGY, VML-HD, TKH, and NC, show that VGTS consistently surpasses state-of-the-art methods. The proposed framework exhibits great potential for application in historical manuscript text spotting, enabling scholars to efficiently identify and document novel symbols with minimal annotation effort.

arxiv情報

著者 Wenbo Hu,Hongjian Zhan,Xinchen Ma,Cong Liu,Bing Yin,Yue Lu
発行日 2024-03-29 13:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク