Character-Aware Models Improve Visual Text Rendering

要約

現在の画像生成モデルは、整形式のビジュアル テキストを確実に生成するのに苦労しています。
このホワイトペーパーでは、重要な要因を調査します。一般的なテキストから画像へのモデルには文字レベルの入力機能がないため、一連のグリフとして単語の視覚的な構成を予測することがはるかに困難になります。
この効果の程度を定量化するために、文字認識テキスト エンコーダーと文字ブラインド テキスト エンコーダーを比較する一連の制御実験を行います。
テキストのみのドメインでは、文字認識モデルが新しいスペリング タスク (WikiSpell) に大きな利益をもたらすことがわかりました。
これらの学習をビジュアル ドメインに移し、一連の画像生成モデルをトレーニングし、さまざまな新しいテキスト レンダリング タスク (DrawText ベンチマーク) で、文字を認識するバリアントが文字を認識しないバリアントよりも優れていることを示します。
私たちのモデルは、はるかに少ない例でのトレーニングにもかかわらず、まれな単語で競合他社よりも 30 ポイント以上の精度向上を達成し、ビジュアル スペリングではるかに高い最先端技術を設定しています。

要約(オリジナル)

Current image generation models struggle to reliably produce well-formed visual text. In this paper, we investigate a key contributing factor: popular text-to-image models lack character-level input features, making it much harder to predict a word’s visual makeup as a series of glyphs. To quantify the extent of this effect, we conduct a series of controlled experiments comparing character-aware vs. character-blind text encoders. In the text-only domain, we find that character-aware models provide large gains on a novel spelling task (WikiSpell). Transferring these learnings onto the visual domain, we train a suite of image generation models, and show that character-aware variants outperform their character-blind counterparts across a range of novel text rendering tasks (our DrawText benchmark). Our models set a much higher state-of-the-art on visual spelling, with 30+ point accuracy gains over competitors on rare words, despite training on far fewer examples.

arxiv情報

著者 Rosanne Liu,Dan Garrette,Chitwan Saharia,William Chan,Adam Roberts,Sharan Narang,Irina Blok,RJ Mical,Mohammad Norouzi,Noah Constant
発行日 2022-12-20 18:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク