Fine-tuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition

要約

多くの機械学習タスクでは、大きな一般的なデータセットと小さな専門データセットが利用可能です。
このような状況では、さまざまなドメイン適応方法を使用して、一般的なモデルをターゲットデータセットに適応させることができます。
CTCを使用した手書き認識のために訓練されたニューラルネットワークの場合、このようなシナリオではデータ増強を備えた単純な微調整は驚くほどうまく機能し、非常に小さなターゲットドメインデータセットでも過剰適合に耐性があることを示します。
作家依存と作家に依存しない設定の両方で、増強、トレーニングデータサイズ、および事前に訓練されたネットワークの品質に関する微調整の動作を評価しました。
大規模な現実世界のデータセットでは、新しい作家の微調整により、16本のテキストラインで25%、256本のテキストラインで50%の平均相対CER改善が得られました。

要約(オリジナル)

In many machine learning tasks, a large general dataset and a small specialized dataset are available. In such situations, various domain adaptation methods can be used to adapt a general model to the target dataset. We show that in the case of neural networks trained for handwriting recognition using CTC, simple fine-tuning with data augmentation works surprisingly well in such scenarios and that it is resistant to overfitting even for very small target domain datasets. We evaluated the behavior of fine-tuning with respect to augmentation, training data size, and quality of the pre-trained network, both in writer-dependent and writer-independent settings. On a large real-world dataset, fine-tuning on new writers provided an average relative CER improvement of 25 % for 16 text lines and 50 % for 256 text lines.

arxiv情報

著者 Jan Kohút,Michal Hradiš
発行日 2025-04-30 12:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク