Text-Aware Image Restoration with Diffusion Models

要約

画像修復は、劣化した画像を回復することを目的としています。
しかし、既存の拡散ベースの修復方法は、自然画像の修復に大きな成功にもかかわらず、劣化した画像のテキスト領域を忠実に再構築するのに苦労します。
これらの方法は、頻繁にもっともらしいが誤ったテキストのようなパターンを生成します。これは、テキストイメージの幻覚と呼ばれる現象です。
このホワイトペーパーでは、視覚的内容とテキストの忠実度の同時回復を必要とする新しい修復タスクである、テキスト認識画像修復(TAIR)を紹介します。
このタスクに取り組むために、SA-Textを提示します。SA-Textは、多様で複雑なテキストインスタンスで密に注釈が付けられた100K高品質のシーン画像の大規模なベンチマークです。
さらに、Terediffと呼ばれるマルチタスク拡散フレームワークを提案し、拡散モデルの内部機能をテキストスポッティングモジュールに統合し、両方のコンポーネントが共同トレーニングから利益を得ることができます。
これにより、豊富なテキスト表現が抽出され、その後の除去ステップでプロンプトとして利用されます。
広範な実験は、私たちのアプローチが一貫して最先端の修復方法を上回り、テキスト認識の精度を大幅に獲得することを示しています。
プロジェクトページをご覧ください:https://cvlab-kaist.github.io/tair/

要約(オリジナル)

Image restoration aims to recover degraded images. However, existing diffusion-based restoration methods, despite great success in natural image restoration, often struggle to faithfully reconstruct textual regions in degraded images. Those methods frequently generate plausible but incorrect text-like patterns, a phenomenon we refer to as text-image hallucination. In this paper, we introduce Text-Aware Image Restoration (TAIR), a novel restoration task that requires the simultaneous recovery of visual contents and textual fidelity. To tackle this task, we present SA-Text, a large-scale benchmark of 100K high-quality scene images densely annotated with diverse and complex text instances. Furthermore, we propose a multi-task diffusion framework, called TeReDiff, that integrates internal features from diffusion models into a text-spotting module, enabling both components to benefit from joint training. This allows for the extraction of rich text representations, which are utilized as prompts in subsequent denoising steps. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art restoration methods, achieving significant gains in text recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/

arxiv情報

著者 Jaewon Min,Jin Hyeon Kim,Paul Hyunbin Cho,Jaeeun Lee,Jihye Park,Minkyu Park,Sangpil Kim,Hyunhee Park,Seungryong Kim
発行日 2025-06-11 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク