Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing

要約

シーンテキスト画像には、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含まれています。
シーン テキスト タスクが異なれば、必要な情報も異なりますが、以前の表現学習方法では、すべてのタスクに対して密結合された特徴が使用されており、最適なパフォーマンスが得られませんでした。
私たちは、これら 2 種類の機能を解きほぐして、さまざまな下流タスク (本当に必要なものを選択) に適切に対処する際の適応性を向上させることを目的とした、解き放たれた表現学習フレームワーク (DARLING) を提案します。
具体的には、スタイルは同じだが内容が異なる画像ペアのデータセットを合成します。
データセットに基づいて、監視設計によって 2 種類の特徴を分離します。
明らかに、視覚的表現をスタイルとコンテンツの特徴に直接分割し、コンテンツの特徴はテキスト認識損失によって監視され、一方、位置合わせの損失によって画像ペア内のスタイルの特徴が調整されます。
次に、スタイル特徴を使用して、画像デコーダを介して相手画像を再構成し、相手のコンテンツを示すプロンプトを表示します。
このような操作により、特徴的な特性に基づいて特徴が効果的に分離されます。
私たちの知る限り、シーンテキストの分野において、テキスト画像の固有の特性を解きほぐすのはこれが初めてです。
私たちの手法は、シーン テキストの認識、削除、編集において最先端のパフォーマンスを実現します。

要約(オリジナル)

Scene text images contain not only style information (font, background) but also content information (character, texture). Different scene text tasks need different information, but previous representation learning methods use tightly coupled features for all tasks, resulting in sub-optimal performance. We propose a Disentangled Representation Learning framework (DARLING) aimed at disentangling these two types of features for improved adaptability in better addressing various downstream tasks (choose what you really need). Specifically, we synthesize a dataset of image pairs with identical style but different content. Based on the dataset, we decouple the two types of features by the supervision design. Clearly, we directly split the visual representation into style and content features, the content features are supervised by a text recognition loss, while an alignment loss aligns the style features in the image pairs. Then, style features are employed in reconstructing the counterpart image via an image decoder with a prompt that indicates the counterpart’s content. Such an operation effectively decouples the features based on their distinctive properties. To the best of our knowledge, this is the first time in the field of scene text that disentangles the inherent properties of the text images. Our method achieves state-of-the-art performance in Scene Text Recognition, Removal, and Editing.

arxiv情報

著者 Boqiang Zhang,Hongtao Xie,Zuan Gao,Yuxin Wang
発行日 2024-05-07 15:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク