Self-Supervised Learning for Text Recognition: A Critical Survey

要約

テキスト認識 (TR) は、画像からテキスト情報を取得することに焦点を当てた研究分野を指します。このテーマは、ディープ ニューラル ネットワーク (DNN) の使用により、過去 10 年間で大幅な進歩が見られました。
ただし、これらのソリューションでは、多くの場合、手動でラベル付けされた大量のデータまたは合成データが必要になります。
この課題に対処するために、ラベルなしデータの大規模なデータセットを利用して DNN をトレーニングし、意味のある堅牢な表現を生成する自己教師あり学習 (SSL) が注目を集めています。
SSL は、その独特な特性のため、当初は TR では無視されていましたが、近年、この分野に特化した SSL 方式の開発が急増しています。
しかし、この急速な発展により、方法論や比較におけるこれまでの取り組みを考慮せずに、多くの方法が独自に研究されるようになり、それによって研究分野の進歩が妨げられています。
したがって、このホワイトペーパーでは、TR 分野における SSL の使用を統合することを目指し、現在の最先端技術の重要かつ包括的な概要を提供します。
既存の方法をレビューおよび分析し、その結果を比較し、現在の文献の不一致を強調します。
この徹底的な分析は、この分野に関する一般的な洞察を提供し、標準化を提案し、新しい研究の方向性を特定し、その適切な発展を促進することを目的としています。

要約(オリジナル)

Text Recognition (TR) refers to the research area that focuses on retrieving textual information from images, a topic that has seen significant advancements in the last decade due to the use of Deep Neural Networks (DNN). However, these solutions often necessitate vast amounts of manually labeled or synthetic data. Addressing this challenge, Self-Supervised Learning (SSL) has gained attention by utilizing large datasets of unlabeled data to train DNN, thereby generating meaningful and robust representations. Although SSL was initially overlooked in TR because of its unique characteristics, recent years have witnessed a surge in the development of SSL methods specifically for this field. This rapid development, however, has led to many methods being explored independently, without taking previous efforts in methodology or comparison into account, thereby hindering progress in the field of research. This paper, therefore, seeks to consolidate the use of SSL in the field of TR, offering a critical and comprehensive overview of the current state of the art. We will review and analyze the existing methods, compare their results, and highlight inconsistencies in the current literature. This thorough analysis aims to provide general insights into the field, propose standardizations, identify new research directions, and foster its proper development.

arxiv情報

著者 Carlos Penarrubia,Jose J. Valero-Mas,Jorge Calvo-Zaragoza
発行日 2024-07-29 11:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク