要約
手書き認識の課題の1つは、非常に異なる執筆スタイルを多数転写することです。
最先端のアプローチでは、作家のスタイルに関する情報を明示的に使用していません。これは、さまざまな曖昧さのために全体的な精度を制限している可能性があります。
作家のアイデンティティを追加の入力とする作家依存のパラメーターを使用したモデルを探索します。
提案されたモデルは、単一の著者(単一の文字、日記、またはクロニクルなど)によって書かれた可能性が高いパーティションを使用して、データセットでトレーニングできます。
作家スタイルブロック(WSB)を提案します。これは、パーティションの学習した埋め込みに条件付けられた適応インスタンス正規化レイヤーです。
WSBのさまざまな配置と設定を実験し、事前に訓練を受けた埋め込みを対象としました。
私たちのアプローチは、作家依存のシナリオにWSBのないベースラインよりも優れており、新しい作家の埋め込みを推定できることを示しています。
ただし、ライターに依存しない設定で単純な微調整を使用したドメイン適応は、同様の計算コストで優れた精度を提供します。
提案されたアプローチは、そのようなベースラインを克服するために、トレーニングの安定性と正則化の埋め込みの観点からさらに調査する必要があります。
要約(オリジナル)
One of the challenges of handwriting recognition is to transcribe a large number of vastly different writing styles. State-of-the-art approaches do not explicitly use information about the writer’s style, which may be limiting overall accuracy due to various ambiguities. We explore models with writer-dependent parameters which take the writer’s identity as an additional input. The proposed models can be trained on datasets with partitions likely written by a single author (e.g. single letter, diary, or chronicle). We propose a Writer Style Block (WSB), an adaptive instance normalization layer conditioned on learned embeddings of the partitions. We experimented with various placements and settings of WSB and contrastively pre-trained embeddings. We show that our approach outperforms a baseline with no WSB in a writer-dependent scenario and that it is possible to estimate embeddings for new writers. However, domain adaptation using simple fine-tuning in a writer-independent setting provides superior accuracy at a similar computational cost. The proposed approach should be further investigated in terms of training stability and embedding regularization to overcome such a baseline.
arxiv情報
著者 | Jan Kohút,Michal Hradiš,Martin Kišš |
発行日 | 2025-04-30 12:25:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google