Finetuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition

要約

多くの機械学習タスクでは、大きな一般的なデータセットと小さな特殊なデータセットが利用できます。
このような状況では、さまざまなドメイン適応方法を使用して、一般的なモデルをターゲット データセットに適応させることができます。
CTC を使用して手書き認識用にトレーニングされたニューラル ネットワークの場合、データ拡張を使用した単純な微調整がそのようなシナリオで驚くほどうまく機能し、非常に小さなターゲット ドメイン データセットであってもオーバーフィッティングに耐性があることを示します。
ライターに依存する設定とライターに依存しない設定の両方で、拡張、トレーニング データのサイズ、事前トレーニング済みネットワークの品質に関する微調整の動作を評価しました。
大規模な現実世界のデータセットでは、微調整により、新しいライターのテキスト行が 16 行で平均 25%、テキスト行が 256 行で 50% の相対 CER 改善が得られました。

要約(オリジナル)

In many machine learning tasks, a large general dataset and a small specialized dataset are available. In such situations, various domain adaptation methods can be used to adapt a general model to the target dataset. We show that in the case of neural networks trained for handwriting recognition using CTC, simple finetuning with data augmentation works surprisingly well in such scenarios and that it is resistant to overfitting even for very small target domain datasets. We evaluated the behavior of finetuning with respect to augmentation, training data size, and quality of the pre-trained network, both in writer-dependent and writer-independent settings. On a large real-world dataset, finetuning provided an average relative CER improvement of 25 % with 16 text lines for new writers and 50 % for 256 text lines.

arxiv情報

著者 Jan Kohút,Michal Hradiš
発行日 2023-02-13 12:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク