WriteViT: Handwritten Text Generation with Vision Transformer

要約

人間は、コンテンツをスタイルから直感的に分離することにより、単一の例から手書きスタイルを迅速に一般化できます。
ただし、マシンは、特に低データ設定では、このタスクに苦労しており、しばしば微妙な空間的および文体的な手がかりが欠けています。
このギャップに動機付けられて、さまざまなコンピュータービジョンタスクで強力なパフォーマンスを示しているモデルのファミリであるVision Transformers(VIT)を組み込んだワンショットの手書きのテキスト合成フレームワークであるWriteVitを紹介します。
WriteVitは、条件付き位置エンコーディング(CPE)によって強化されたトランスエンコーダデコーダーブロックで構築されたマルチスケールジェネレーター、および軽量VITベースの認識者を抽出するためのVITベースのライター識別子を統合します。
以前の方法は通常、CNNまたはCRNNに依存していますが、当社の設計は、ファイングレインストロークの詳細と高レベルのスタイル情報の両方をよりよくキャプチャするために、主要なコンポーネントの変圧器を活用しています。
手書きのテキスト統合は広く探求されていますが、そのベトナムへの適用 – ディクリティックと複雑なタイポグラフィが豊富な言語 – はまだ限られています。
ベトナムと英語のデータセットでの実験は、WriteVitが低リソースシナリオで強力な認識パフォーマンスを維持しながら、高品質のスタイルに一貫性のある手書きを生成することを示しています。
これらの結果は、多言語の手書きの生成と効率的なスタイルの適応のための変圧器ベースの設計の約束を強調しています。

要約(オリジナル)

Humans can quickly generalize handwriting styles from a single example by intuitively separating content from style. Machines, however, struggle with this task, especially in low-data settings, often missing subtle spatial and stylistic cues. Motivated by this gap, we introduce WriteViT, a one-shot handwritten text synthesis framework that incorporates Vision Transformers (ViT), a family of models that have shown strong performance across various computer vision tasks. WriteViT integrates a ViT-based Writer Identifier for extracting style embeddings, a multi-scale generator built with Transformer encoder-decoder blocks enhanced by conditional positional encoding (CPE), and a lightweight ViT-based recognizer. While previous methods typically rely on CNNs or CRNNs, our design leverages transformers in key components to better capture both fine-grained stroke details and higher-level style information. Although handwritten text synthesis has been widely explored, its application to Vietnamese — a language rich in diacritics and complex typography — remains limited. Experiments on Vietnamese and English datasets demonstrate that WriteViT produces high-quality, style-consistent handwriting while maintaining strong recognition performance in low-resource scenarios. These results highlight the promise of transformer-based designs for multilingual handwriting generation and efficient style adaptation.

arxiv情報

著者 Dang Hoai Nam,Huynh Tong Dang Khoa,Vo Nguyen Le Duy
発行日 2025-05-19 15:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク