Character Generation through Self-Supervised Vectorization

要約

自己教師付き画像生成の一般的なアプローチは、画素レベルの表現で操作することである。この方法は高品質な画像を生成することができるが、ベクトル化の単純さと生来の品質の恩恵を受けることができない。本論文では、画像のストロークレベル表現を操作する描画エージェントを提案する。各タイムステップにおいて、エージェントはまず現在のキャンバスを評価し、描画を止めるか続けるかを決定する。描画が決定されると、エージェントは描画するストロークを示すプログラムを出力する。その結果、最小限のストローク数でキャンバス上に描画し、停止するタイミングを動的に決定することで、最終的なラスター画像を生成する。我々は、MNISTとOmniglotのデータセットを用いて、無条件生成と構文解析(再構成)タスクの強化学習によりエージェントを学習させる。さらに、Omniglotの模範解答生成と型条件付き概念生成に我々の構文解析エージェントを利用し、さらなる学習を行うことなく、Omniglotチャレンジに挑戦する。我々は、3つの生成タスクと構文解析タスクの全てにおいて、成功した結果を発表する。また、ストロークレベルやベクトルによる監視を必要とせず、ラスター画像のみを用いて学習を行うことができる。

要約(オリジナル)

The prevalent approach in self-supervised image generation is to operate on pixel level representations. While this approach can produce high quality images, it cannot benefit from the simplicity and innate quality of vectorization. Here we present a drawing agent that operates on stroke-level representation of images. At each time step, the agent first assesses the current canvas and decides whether to stop or keep drawing. When a ‘draw’ decision is made, the agent outputs a program indicating the stroke to be drawn. As a result, it produces a final raster image by drawing the strokes on a canvas, using a minimal number of strokes and dynamically deciding when to stop. We train our agent through reinforcement learning on MNIST and Omniglot datasets for unconditional generation and parsing (reconstruction) tasks. We utilize our parsing agent for exemplar generation and type conditioned concept generation in Omniglot challenge without any further training. We present successful results on all three generation tasks and the parsing task. Crucially, we do not need any stroke-level or vector supervision; we only use raster images for training.

arxiv情報

著者 Gokcen Gokceoglu,Emre Akbas
発行日 2022-08-03 12:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク