要約
シーン テキスト編集 (STE) は、元のテキストの背景とスタイルを維持しながら、画像内のテキストを新しい希望のテキストに置き換えることを目的としています。
しかしながら、現在の技術は、高度な明瞭さと可読性を示す編集済みテキスト画像の生成において顕著な課題を提示している。
この課題は主に、さまざまなテキスト タイプと複雑な背景の複雑なテクスチャに見られる固有の多様性に起因しています。
この課題に対処するために、この文書では、テキスト画像間でテキストを転送するための 3 段階のフレームワークを紹介します。
最初に、元のテキストを目的の置換にシームレスに置き換えるテキスト交換ネットワークを導入します。
次に、バックグラウンド修復ネットワークをフレームワークに組み込みます。
この特殊なネットワークは、背景画像を巧みに再構築し、元のテキストを削除した後に残った空白部分に効果的に対処するように設計されています。
このプロセスでは、背景の視覚的な調和と一貫性が細心の注意を払って維持されます。
最終的に、テキスト交換ネットワークと背景修復ネットワークからの結果の合成は、融合ネットワークを通じて達成され、細心の注意を払って編集された最終画像の作成で最高潮に達します。
補足資料にはデモビデオが含まれています。
要約(オリジナル)
Scene Text Editing (STE) aims to substitute text in an image with new desired text while preserving the background and styles of the original text. However, present techniques present a notable challenge in the generation of edited text images that exhibit a high degree of clarity and legibility. This challenge primarily stems from the inherent diversity found within various text types and the intricate textures of complex backgrounds. To address this challenge, this paper introduces a three-stage framework for transferring texts across text images. Initially, we introduce a text-swapping network that seamlessly substitutes the original text with the desired replacement. Subsequently, we incorporate a background inpainting network into our framework. This specialized network is designed to skillfully reconstruct background images, effectively addressing the voids left after the removal of the original text. This process meticulously preserves visual harmony and coherence in the background. Ultimately, the synthesis of outcomes from the text-swapping network and the background inpainting network is achieved through a fusion network, culminating in the creation of the meticulously edited final image. A demo video is included in the supplementary material.
arxiv情報
著者 | Felix Liawi,Yun-Da Tsai,Guan-Lun Lu,Shou-De Lin |
発行日 | 2023-10-20 09:15:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google