要約
見た目がリアルで読みやすい手書きテキストの画像を生成することは、手書きテキスト生成 (HTG) と呼ばれる困難なタスクです。
文字列と作家からの例が与えられた場合、目標は、正しく綴られた単語を手書きで描いた画像を、希望する作家の書道スタイルで合成することです。
HTG の重要な用途は、新しいデータセットに下流モデルを適応させるためのトレーニング画像の生成です。
自然な画像生成における成功により、拡散モデル (DM) は HTG における最先端のアプローチになりました。
この研究では、マスクされた自動エンコーダーを使用してスタイル調整を学習することで、トレーニング中に見られない書き方の生成を可能にする、HTG 用の潜在 DM の拡張機能を紹介します。
私たちが提案するコンテンツ エンコーダーでは、テキストや書道の特徴に基づいて DM を調整するさまざまな方法が可能になります。
さらに、分類子を使用しないガイダンスを採用し、生成されたトレーニング画像の品質への影響を調査します。
モデルを新しいラベルのないデータセットに適応させるために、半教師ありトレーニング スキームを提案します。
私たちは IAM データベースでアプローチを評価し、RIMES データベースを使用してトレーニング中に見られなかったデータの生成を調べ、この特に有望な HTG 用 DM アプリケーションの改善を実現します。
要約(オリジナル)
The generation of images of realistic looking, readable handwritten text is a challenging task which is referred to as handwritten text generation (HTG). Given a string and examples from a writer, the goal is to synthesize an image depicting the correctly spelled word in handwriting with the calligraphic style of the desired writer. An important application of HTG is the generation of training images in order to adapt downstream models for new data sets. With their success in natural image generation, diffusion models (DMs) have become the state-of-the-art approach in HTG. In this work, we present an extension of a latent DM for HTG to enable generation of writing styles not seen during training by learning style conditioning with a masked auto encoder. Our proposed content encoder allows for different ways of conditioning the DM on textual and calligraphic features. Additionally, we employ classifier-free guidance and explore the influence on the quality of the generated training images. For adapting the model to a new unlabeled data set, we propose a semi-supervised training scheme. We evaluate our approach on the IAM-database and use the RIMES-database to examine the generation of data not seen during training achieving improvements in this particularly promising application of DMs for HTG.
arxiv情報
著者 | Kai Brandenbusch |
発行日 | 2024-12-20 12:48:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google