Spatial Context-based Self-Supervised Learning for Handwritten Text Recognition

要約

手書きテキスト認識 (HTR) はコンピューター ビジョンに関連する問題であり、その固有の変動性とその解釈に必要な豊富な文脈化により、独特の課題を意味します。
コンピューター ビジョンにおける自己教師あり学習 (SSL) の成功にもかかわらず、HTR への応用はかなり分散しており、主要な SSL 手法は未調査のままです。
この研究では、そのうちの 1 つである空間コンテキスト ベースの SSL に焦点を当てています。
私たちは、この一連のアプローチを HTR にどのように適用して最適化できるかを調査し、手書きテキストのユニークな機能を活用する新しいワークフローを提案します。
私たちの実験では、検討した方法が多くのベンチマーク ケースにおいて HTR 向けの最先端の SSL の進歩につながることを実証しています。

要約(オリジナル)

Handwritten Text Recognition (HTR) is a relevant problem in computer vision, and implies unique challenges owing to its inherent variability and the rich contextualization required for its interpretation. Despite the success of Self-Supervised Learning (SSL) in computer vision, its application to HTR has been rather scattered, leaving key SSL methodologies unexplored. This work focuses on one of them, namely Spatial Context-based SSL. We investigate how this family of approaches can be adapted and optimized for HTR and propose new workflows that leverage the unique features of handwritten text. Our experiments demonstrate that the methods considered lead to advancements in the state-of-the-art of SSL for HTR in a number of benchmark cases.

arxiv情報

著者 Carlos Penarrubia,Carlos Garrido-Munoz,Jose J. Valero-Mas,Jorge Calvo-Zaragoza
発行日 2024-04-17 17:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク