要約
手書き認識の課題の 1 つは、多数の非常に異なる書体を書き写すことです。
最先端のアプローチでは、作家のスタイルに関する情報を明示的に使用していないため、さまざまなあいまいさのために全体的な精度が制限される可能性があります。
ライターの ID を追加の入力として受け取る、ライター依存のパラメーターを持つモデルを調べます。
提案されたモデルは、1 人の著者によって書かれた可能性が高いパーティション (たとえば、1 通の手紙、日記、または年代記) を含むデータセットでトレーニングできます。
Writer Style Block (WSB) を提案します。これは、学習したパーティションの埋め込みを条件とする適応インスタンス正規化レイヤーです。
WSB のさまざまな配置と設定、および対照的に事前トレーニング済みの埋め込みを実験しました。
私たちのアプローチは、ライター依存のシナリオで WSB のないベースラインよりも優れていること、および新しいライターの埋め込みを推定できることを示しています。
ただし、ライターに依存しない設定で単純な微調整を使用したドメイン適応は、同様の計算コストで優れた精度を提供します。
提案されたアプローチは、そのようなベースラインを克服するために、トレーニングの安定性と埋め込みの正則化の観点からさらに調査する必要があります。
要約(オリジナル)
One of the challenges of handwriting recognition is to transcribe a large number of vastly different writing styles. State-of-the-art approaches do not explicitly use information about the writer’s style, which may be limiting overall accuracy due to various ambiguities. We explore models with writer-dependent parameters which take the writer’s identity as an additional input. The proposed models can be trained on datasets with partitions likely written by a single author (e.g. single letter, diary, or chronicle). We propose a Writer Style Block (WSB), an adaptive instance normalization layer conditioned on learned embeddings of the partitions. We experimented with various placements and settings of WSB and contrastively pre-trained embeddings. We show that our approach outperforms a baseline with no WSB in a writer-dependent scenario and that it is possible to estimate embeddings for new writers. However, domain adaptation using simple finetuning in a writer-independent setting provides superior accuracy at a similar computational cost. The proposed approach should be further investigated in terms of training stability and embedding regularization to overcome such a baseline.
arxiv情報
著者 | Jan Kohút,Michal Hradiš,Martin Kišš |
発行日 | 2023-02-13 12:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google