ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining

要約

シーン テキスト削除 (STR) は、自然なシーンのテキスト ストロークを視覚的に一貫した背景に置き換えることを目的としています。
最近の STR アプローチは、反復的な改良または明示的なテキスト マスクに依存しているため、複雑さが増し、テキスト ローカリゼーションの精度が敏感になります。
さらに、既存の STR 手法のほとんどは特徴表現に畳み込みニューラル ネットワーク (CNN) を利用していますが、ビジョン トランスフォーマー (ViT) の可能性はほとんど解明されていません。
この論文では、ViTEraser と呼ばれる、シンプルかつ効果的な ViT ベースのテキスト消しゴムを提案します。
簡潔なエンコーダ/デコーダ フレームワークに従って、さまざまなタイプの ViT を ViTEraser に簡単に統合して、長期的な依存関係とグローバル推論を強化できます。
具体的には、エンコーダーは ViT ブロックとパッチ埋め込みレイヤーを介して入力画像を隠れ空間に階層的にマッピングし、デコーダーは ViT ブロックとパッチ分割レイヤーを使用して隠れた特徴をテキスト消去された画像に徐々にアップサンプリングします。
ViTEraser はテキスト ローカリゼーションと修復を暗黙的に統合するため、SegMIM と呼ばれる新しいエンドツーエンドの事前トレーニング方法を提案します。これは、エンコーダーとデコーダーをそれぞれテキスト ボックスのセグメンテーションとマスクされた画像モデリングのタスクに集中させます。
提案された方法の有効性を検証するために、STR 用の ViT ベースのエンコーダ/デコーダのアーキテクチャ、事前トレーニング、スケーラビリティを包括的に調査します。これにより、ViT の STR への適用についての深い洞察が得られます。
実験結果は、SegMIM を備えた ViTEraser が STR で大幅なマージンで最先端のパフォーマンスを達成することを示しています。
さらに、改ざんされたシーンのテキスト検出に関する拡張実験は、他のタスクに対する ViTEraser の汎用性を示しています。
私たちは、この論文が ViT ベースの STR アプローチに関するさらなる研究を促すことができると信じています。
コードは https://github.com/shannanyinxiang/ViTEraser で入手できます。

要約(オリジナル)

Scene text removal (STR) aims at replacing text strokes in natural scenes with visually coherent backgrounds. Recent STR approaches rely on iterative refinements or explicit text masks, resulting in higher complexity and sensitivity to the accuracy of text localization. Moreover, most existing STR methods utilize convolutional neural networks (CNNs) for feature representation while the potential of vision Transformers (ViTs) remains largely unexplored. In this paper, we propose a simple-yet-effective ViT-based text eraser, dubbed ViTEraser. Following a concise encoder-decoder framework, different types of ViTs can be easily integrated into ViTEraser to enhance the long-range dependencies and global reasoning. Specifically, the encoder hierarchically maps the input image into the hidden space through ViT blocks and patch embedding layers, while the decoder gradually upsamples the hidden features to the text-erased image with ViT blocks and patch splitting layers. As ViTEraser implicitly integrates text localization and inpainting, we propose a novel end-to-end pretraining method, termed SegMIM, which focuses the encoder and decoder on the text box segmentation and masked image modeling tasks, respectively. To verify the effectiveness of the proposed methods, we comprehensively explore the architecture, pretraining, and scalability of the ViT-based encoder-decoder for STR, which provides deep insights into the application of ViT to STR. Experimental results demonstrate that ViTEraser with SegMIM achieves state-of-the-art performance on STR by a substantial margin. Furthermore, the extended experiment on tampered scene text detection demonstrates the generality of ViTEraser to other tasks. We believe this paper can inspire more research on ViT-based STR approaches. Code will be available at https://github.com/shannanyinxiang/ViTEraser.

arxiv情報

著者 Dezhi Peng,Chongyu Liu,Yuliang Liu,Lianwen Jin
発行日 2023-06-21 08:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク