Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets

要約

自己学習学習は、さまざまなドメインのモデルパフォーマンスを改善するために、大規模な非標識データを活用するための強力なアプローチとして浮上しています。
この論文では、テキスト認識変圧器のためのマスクされた自己監督の事前トレーニングを探索します。
具体的には、トレーニング前の段階に2つの変更を提案します。マスキング確率を徐々に増やし、マスクされたパッチと非マスクされていないパッチの両方を組み込むために損失関数を変更します。
トレーニング前の50mの非標識テキストラインのデータセットと、微調整のために4つの異なるサイズの注釈付きデータセットを使用して、広範な実験を実施します。
さらに、事前訓練を受けたモデルを転送学習で訓練されたモデルと比較し、自己監視前のトレーニングの有効性を示しています。
特に、トレーニング前にモデルの文字エラー率が一貫して改善されます。
また、転送学習と同等ですが、追加の注釈付きテキストラインに依存することはありません。

要約(オリジナル)

Self-supervised learning has emerged as a powerful approach for leveraging large-scale unlabeled data to improve model performance in various domains. In this paper, we explore masked self-supervised pre-training for text recognition transformers. Specifically, we propose two modifications to the pre-training phase: progressively increasing the masking probability, and modifying the loss function to incorporate both masked and non-masked patches. We conduct extensive experiments using a dataset of 50M unlabeled text lines for pre-training and four differently sized annotated datasets for fine-tuning. Furthermore, we compare our pre-trained models against those trained with transfer learning, demonstrating the effectiveness of the self-supervised pre-training. In particular, pre-training consistently improves the character error rate of models, in some cases up to 30 % relatively. It is also on par with transfer learning but without relying on extra annotated text lines.

arxiv情報

著者 Martin Kišš,Michal Hradiš
発行日 2025-03-28 15:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク