要約
この論文では、事前に訓練された拡散モデルを使用したシーンテキスト破壊のための最初のトレーニングおよび注釈なしの方法であるTextDestroyerを提案します。
既存のシーンのテキスト削除モデルには、複雑な注釈と再訓練が必要であり、プライバシー保護とコンテンツの隠蔽を損なうか、かすかに認識可能なテキスト情報を残す可能性があります。
TextDestroyerは、3段階の階層プロセスを使用して正確なテキストマスクを取得することにより、これらの問題に対処します。
私たちのメソッドは、再構築前にガウス分布を使用して潜在スタートコードのテキスト領域をスクランブルします。
拡散除去プロセス中に、妥協した背景を回復するために、元の潜在性から自己関節の鍵と価値が参照されます。
各反転ステップで保存された潜在コードは、再建中に交換に使用され、完全なバックグラウンドの修復を確保します。
TextDestroyerの利点には、次のものが含まれます。(1)労働集約的なデータ注釈とリソース集約型トレーニングを排除します。
(2)より徹底的なテキスト破壊を達成し、認識可能な痕跡を防ぎます。
(3)より良い一般化能力を示し、実際のシーンと生成された画像の両方でうまく機能します。
要約(オリジナル)
In this paper, we propose TextDestroyer, the first training- and annotation-free method for scene text destruction using a pre-trained diffusion model. Existing scene text removal models require complex annotation and retraining, and may leave faint yet recognizable text information, compromising privacy protection and content concealment. TextDestroyer addresses these issues by employing a three-stage hierarchical process to obtain accurate text masks. Our method scrambles text areas in the latent start code using a Gaussian distribution before reconstruction. During the diffusion denoising process, self-attention key and value are referenced from the original latent to restore the compromised background. Latent codes saved at each inversion step are used for replacement during reconstruction, ensuring perfect background restoration. The advantages of TextDestroyer include: (1) it eliminates labor-intensive data annotation and resource-intensive training; (2) it achieves more thorough text destruction, preventing recognizable traces; and (3) it demonstrates better generalization capabilities, performing well on both real-world scenes and generated images.
arxiv情報
著者 | Mengcheng Li,Fei Chao,Chia-Wen Lin,Rongrong Ji |
発行日 | 2025-06-02 11:08:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google