AmbiGen: Generating Ambigrams from Pre-trained Diffusion Model

要約

アンビグラムは、見る方向に応じて異なる意味を持つカリグラフィーのデザインです。
アンビグラムの作成は、2 つの異なる視点で同時に意味を維持する必要があるため、熟練したアーティストであっても困難な作業です。
この研究では、大規模な視覚と言語の拡散モデル、つまり DeepFloyd IF を抽出してアンビグラムを生成し、2 つの表示方向での読みやすさのために文字の輪郭を最適化することを提案します。
経験的に、私たちのアプローチが既存のアンビグラム生成方法よりも優れていることを示しています。
英語で最も一般的な 500 語について、私たちの方法は単語の精度が 11.6% 以上向上し、編集距離が少なくとも 41.9% 減少しました。

要約(オリジナル)

Ambigrams are calligraphic designs that have different meanings depending on the viewing orientation. Creating ambigrams is a challenging task even for skilled artists, as it requires maintaining the meaning under two different viewpoints at the same time. In this work, we propose to generate ambigrams by distilling a large-scale vision and language diffusion model, namely DeepFloyd IF, to optimize the letters’ outline for legibility in the two viewing orientations. Empirically, we demonstrate that our approach outperforms existing ambigram generation methods. On the 500 most common words in English, our method achieves more than an 11.6% increase in word accuracy and at least a 41.9% reduction in edit distance.

arxiv情報

著者 Boheng Zhao,Rana Hanocka,Raymond A. Yeh
発行日 2023-12-05 18:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク