Scene Style Text Editing

要約

【タイトル】シーンスタイルテキスト編集
【要約】
– 本研究では、「シーンスタイルテキスト編集 (SSTE)」というタスクを提案し、元のテキストシーンを保ったまま、ソース画像のテキスト内容とスタイルを変更することを目的とする。
– 従来の手法は、前景テキストのスタイル(回転角度、色、フォントタイプなど)を細かく調整することができなかったが、本研究は、前景テキストのスタイルを潜在特徴空間で埋め込み調整するための「QuadNet」という四重のフレームワークを提案する。
– QuadNet は、背景の補完、スタイルエンコーダ、コンテンツエンコーダ、およびフュージョンジェネレータの4つの部分で構成されており、それぞれの部分で生成された情報を組み合わせてレンダリングされたテキスト画像を生成する。
– 実践的には、本手法は、単に文字レベルの注釈で現実のデータセットで有望な結果を示すことができる。
– 当社の知る限り、本研究は、潜在特徴空間で深層意味編集により前景テキストの内容とスタイルを細かく操作する最初の手法である。
– 大規模な実験により、QuadNet は、テキスト内容を編集する際に、写真のような臨場感のある前景テキストを生成し、ソーステキストの影を回避する能力を示した。

要約(オリジナル)

In this work, we propose a task called ‘Scene Style Text Editing (SSTE)’, changing the text content as well as the text style of the source image while keeping the original text scene. Existing methods neglect to fine-grained adjust the style of the foreground text, such as its rotation angle, color, and font type. To tackle this task, we propose a quadruple framework named ‘QuadNet’ to embed and adjust foreground text styles in the latent feature space. Specifically, QuadNet consists of four parts, namely background inpainting, style encoder, content encoder, and fusion generator. The background inpainting erases the source text content and recovers the appropriate background with a highly authentic texture. The style encoder extracts the style embedding of the foreground text. The content encoder provides target text representations in the latent feature space to implement the content edits. The fusion generator combines the information yielded from the mentioned parts and generates the rendered text images. Practically, our method is capable of performing promisingly on real-world datasets with merely string-level annotation. To the best of our knowledge, our work is the first to finely manipulate the foreground text content and style by deeply semantic editing in the latent feature space. Extensive experiments demonstrate that QuadNet has the ability to generate photo-realistic foreground text and avoid source text shadows in real-world scenes when editing text content.

arxiv情報

著者 Tonghua Su,Fuxiang Yang,Xiang Zhou,Donglin Di,Zhongjie Wang,Songze Li
発行日 2023-04-20 05:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク