Self-supervised Pre-training of Text Recognizers

要約

この論文では、文書テキスト認識のための自己教師あり事前トレーニング方法を調査します。
現在では、テキスト認識を含む多くの研究タスクのために、ラベルのない大規模なデータセットを収集できますが、それらに注釈を付けるにはコストがかかります。
そこで、ラベルなしデータを活用する手法が研究されています。
私たちは、特徴量子化、VQ-VAE、ポスト量子化 AE という 3 つの異なるアプローチを使用して、マスクされたラベル予測に基づく自己教師ありの事前トレーニング方法を研究します。
また、VICReg および NT-Xent の目的を使用したジョイント埋め込みアプローチも調査します。このアプローチについては、入力画像を完全に無視して位置エンコーディングのみに依存するモデルの崩壊を防ぐための画像シフト手法を提案します。
私たちは主に、さまざまな量の注釈付きターゲット ドメイン データを使用した自己教師付き事前トレーニング手法の利点を調査するために、歴史的な手書き (Bentham) および歴史的な印刷されたデータセットに対して実験を実行します。
私たちは転移学習を強力なベースラインとして使用します。
この評価では、ターゲット ドメインのデータに対する自己教師あり事前トレーニングは非常に効果的ですが、密接に関連するドメインからの転移学習を上回るパフォーマンスを発揮するのに苦労していることが示されています。
この論文は、文書テキスト認識における自己教師あり事前トレーニングを検討した最初の研究の 1 つであり、この分野における将来の研究の基礎となると考えています。
調査したメソッドの実装を https://github.com/DCGM/pero-pretraining で公開しました。

要約(オリジナル)

In this paper, we investigate self-supervised pre-training methods for document text recognition. Nowadays, large unlabeled datasets can be collected for many research tasks, including text recognition, but it is costly to annotate them. Therefore, methods utilizing unlabeled data are researched. We study self-supervised pre-training methods based on masked label prediction using three different approaches — Feature Quantization, VQ-VAE, and Post-Quantized AE. We also investigate joint-embedding approaches with VICReg and NT-Xent objectives, for which we propose an image shifting technique to prevent model collapse where it relies solely on positional encoding while completely ignoring the input image. We perform our experiments on historical handwritten (Bentham) and historical printed datasets mainly to investigate the benefits of the self-supervised pre-training techniques with different amounts of annotated target domain data. We use transfer learning as strong baselines. The evaluation shows that the self-supervised pre-training on data from the target domain is very effective, but it struggles to outperform transfer learning from closely related domains. This paper is one of the first researches exploring self-supervised pre-training in document text recognition, and we believe that it will become a cornerstone for future research in this area. We made our implementation of the investigated methods publicly available at https://github.com/DCGM/pero-pretraining.

arxiv情報

著者 Martin Kišš,Michal Hradiš
発行日 2024-05-01 09:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク