要約
自然風景の画像内にビジュアル テキストを生成することは、多くの未解決の問題を伴う困難な作業です。
人工的にデザインされた画像 (ポスター、表紙、漫画など) 上にテキストを生成する場合とは異なり、自然の風景画像内のテキストは、次の 4 つの重要な基準を満たす必要があります。 (1) 忠実度: 生成されたテキストは、本物のようにリアルに表示される必要があります。
写真を撮影し、どのストロークにもエラーがなく、完全に正確であること。
(2) 合理性: テキストは適切なキャリア領域 (ボード、看板、壁など) 上に生成される必要があり、生成されるテキストの内容もシーンに関連している必要があります。
(3) 実用性: 生成されたテキストは、自然シーンの OCR (光学式文字認識) タスクのトレーニングを容易にすることができます。
(4) 制御性: テキストの属性 (フォントや色など) が必要に応じて制御可能である必要があります。
本稿では、上記の 4 つの側面を同時に満たす 2 段階の手法、SceneVTG++ を提案します。
SceneVTG++ は、テキスト レイアウトおよびコンテンツ ジェネレーター (TLCG) と制御可能なローカル テキスト拡散 (CLTD) で構成されます。
前者は、マルチモーダル大規模言語モデルの世界の知識を利用して、合理的なテキスト領域を見つけ、自然の風景の背景画像に従ってテキストコンテンツを推奨します。一方、後者は、拡散モデルに基づいて制御可能な多言語テキストを生成します。
広範な実験を通じて、TLCG と CLTD の有効性をそれぞれ検証し、SceneVTG++ の最先端のテキスト生成パフォーマンスを実証しました。
さらに、生成された画像は、テキスト検出やテキスト認識などの OCR タスクにおいて優れた実用性を備えています。
コードとデータセットが利用可能になります。
要約(オリジナル)
Generating visual text in natural scene images is a challenging task with many unsolved problems. Different from generating text on artificially designed images (such as posters, covers, cartoons, etc.), the text in natural scene images needs to meet the following four key criteria: (1) Fidelity: the generated text should appear as realistic as a photograph and be completely accurate, with no errors in any of the strokes. (2) Reasonability: the text should be generated on reasonable carrier areas (such as boards, signs, walls, etc.), and the generated text content should also be relevant to the scene. (3) Utility: the generated text can facilitate to the training of natural scene OCR (Optical Character Recognition) tasks. (4) Controllability: The attribute of the text (such as font and color) should be controllable as needed. In this paper, we propose a two stage method, SceneVTG++, which simultaneously satisfies the four aspects mentioned above. SceneVTG++ consists of a Text Layout and Content Generator (TLCG) and a Controllable Local Text Diffusion (CLTD). The former utilizes the world knowledge of multi modal large language models to find reasonable text areas and recommend text content according to the nature scene background images, while the latter generates controllable multilingual text based on the diffusion model. Through extensive experiments, we respectively verified the effectiveness of TLCG and CLTD, and demonstrated the state-of-the-art text generation performance of SceneVTG++. In addition, the generated images have superior utility in OCR tasks like text detection and text recognition. Codes and datasets will be available.
arxiv情報
著者 | Jiawei Liu,Yuanzhi Zhu,Feiyu Gao,Zhibo Yang,Peng Wang,Junyang Lin,Xinggang Wang,Wenyu Liu |
発行日 | 2025-01-07 02:51:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google