要約
この論文の目的は、機械学習によって機械で印刷された文字画像 (フォント画像) と手書き文字画像の間の変換を可能にすることです。
この目的のために、我々は、CycleGAN の概念を拡散モデルに組み込んだ、新しい不対画像から画像ドメインへの変換手法である CycleDM を提案します。
具体的には、CycleDM には 2 つの画像ドメインのノイズ除去プロセスをブリッジする 2 つの内部変換モデルがあります。
これらの変換モデルは、ドメイン間の明示的な対応関係なしで効率的にトレーニングされます。
CycleDMは、機械印刷と手書きの文字画像を2つのモダリティに適用することで、両者の変換を実現します。
変換された画像を定量的および定性的に評価するための実験では、他の同等のアプローチよりも優れたパフォーマンスが得られることがわかりました。
要約(オリジナル)
The purpose of this paper is to enable the conversion between machine-printed character images (i.e., font images) and handwritten character images through machine learning. For this purpose, we propose a novel unpaired image-to-image domain conversion method, CycleDM, which incorporates the concept of CycleGAN into the diffusion model. Specifically, CycleDM has two internal conversion models that bridge the denoising processes of two image domains. These conversion models are efficiently trained without explicit correspondence between the domains. By applying machine-printed and handwritten character images to the two modalities, CycleDM realizes the conversion between them. Our experiments for evaluating the converted images quantitatively and qualitatively found that ours performs better than other comparable approaches.
arxiv情報
著者 | Sho Shimotsumagari,Shumpei Takezaki,Daichi Haraguchi,Seiichi Uchida |
発行日 | 2024-03-05 12:35:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google