CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition

要約

自己教師あり学習は、ドキュメント分析の強力な代替手段として最近登場しました。
これらのアプローチは現在、高品質の画像表現を学習し、大量のラベル付きデータを必要とする教師あり方法の制限を克服することができます。
ただし、これらの方法では、現実的なシナリオに近いモデルにデータが順次提示される段階的な方法で新しい知識を取得することはできません。
この論文では、シーケンス認識の例として、手書きテキスト認識における壊滅的な忘却問題を軽減するための継続的な自己教師あり学習の可能性を探ります。
私たちの方法は、タスクごとにアダプターと呼ばれる中間層を追加し、現在のタスクを学習しながら以前のモデルから知識を効率的に抽出することです。
私たちが提案するフレームワークは、計算とメモリの複雑さの両方で効率的です。
その有効性を実証するために、学習したモデルをラテン語および非ラテン語のスクリプトを含むさまざまなテキスト認識のダウンストリーム タスクに転送することにより、方法を評価します。
私たちが知る限り、これは手書きテキスト認識のための継続的な自己教師あり学習の最初のアプリケーションです。
タスクごとにいくつかのパラメータを追加するだけで、英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを実現します。
コードとトレーニング済みモデルは公開されます。

要約(オリジナル)

Self-supervised learning has recently emerged as a strong alternative in document analysis. These approaches are now capable of learning high-quality image representations and overcoming the limitations of supervised methods, which require a large amount of labeled data. However, these methods are unable to capture new knowledge in an incremental fashion, where data is presented to the model sequentially, which is closer to the realistic scenario. In this paper, we explore the potential of continual self-supervised learning to alleviate the catastrophic forgetting problem in handwritten text recognition, as an example of sequence recognition. Our method consists in adding intermediate layers called adapters for each task, and efficiently distilling knowledge from the previous model while learning the current task. Our proposed framework is efficient in both computation and memory complexity. To demonstrate its effectiveness, we evaluate our method by transferring the learned model to diverse text recognition downstream tasks, including Latin and non-Latin scripts. As far as we know, this is the first application of continual self-supervised learning for handwritten text recognition. We attain state-of-the-art performance on English, Italian and Russian scripts, whilst adding only a few parameters per task. The code and trained models will be publicly available.

arxiv情報

著者 Marwa Dhiaf,Mohamed Ali Souibgui,Kai Wang,Yuyang Liu,Yousri Kessentini,Alicia Fornés,Ahmed Cheikh Rouhou
発行日 2023-03-16 14:27:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク