要約
複雑なテキスト画像 (不規則な構造、低解像度、重度のオクルージョン、不均一な照明など) を処理する場合、既存の教師付きテキスト認識方法では大量のデータが必要になります。
これらの方法では、大規模な合成テキスト画像を使用して注釈付きの実際の画像への依存を減らしていますが、ドメインギャップにより認識パフォーマンスは依然として制限されます。
したがって、自己教師あり学習によって、ラベルのない実際の画像上で堅牢なテキスト特徴表現を探索することは、良い解決策となります。
ただし、既存の自己教師ありテキスト認識手法は、水平軸に沿って視覚特徴を大まかに分割することによってシーケンスからシーケンスへの表現学習を実行します。これにより、拡張の柔軟性が制限されます。これは、大規模な幾何学ベースの拡張がシーケンスからシーケンスにつながる可能性があるためです。
機能の不一致。
これを動機として、私たちは、一般的なテキスト表現の学習を容易にする多用途の拡張を可能にする、新しい自己監視型の文字から文字への蒸留法 (CCD) を提案します。
具体的には、自己教師型文字セグメンテーション モジュールを設計することにより、ラベルのない実際の画像の文字構造を描写します。
これに続いて、CCD は、画像からの 2 つの拡張ビュー間の変換行列を使用して、柔軟な拡張の下でペアごとの配列を維持しながら、ローカル文字の多様性を簡単に強化します。
実験では、CCD がテキスト認識で 1.38%、テキスト セグメンテーションで 1.7%、テキスト超解像度で 0.24 dB (PSNR) および 0.0321 (SSIM) の平均パフォーマンス向上という最先端の結果を達成することを実証しました。
コードは https://github.com/TongkunGuan/CCD で入手できます。
要約(オリジナル)
When handling complicated text images (e.g., irregular structures, low resolution, heavy occlusion, and uneven illumination), existing supervised text recognition methods are data-hungry. Although these methods employ large-scale synthetic text images to reduce the dependence on annotated real images, the domain gap still limits the recognition performance. Therefore, exploring the robust text feature representations on unlabeled real images by self-supervised learning is a good solution. However, existing self-supervised text recognition methods conduct sequence-to-sequence representation learning by roughly splitting the visual features along the horizontal axis, which limits the flexibility of the augmentations, as large geometric-based augmentations may lead to sequence-to-sequence feature inconsistency. Motivated by this, we propose a novel self-supervised Character-to-Character Distillation method, CCD, which enables versatile augmentations to facilitate general text representation learning. Specifically, we delineate the character structures of unlabeled real images by designing a self-supervised character segmentation module. Following this, CCD easily enriches the diversity of local characters while keeping their pairwise alignment under flexible augmentations, using the transformation matrix between two augmented views from images. Experiments demonstrate that CCD achieves state-of-the-art results, with average performance gains of 1.38% in text recognition, 1.7% in text segmentation, 0.24 dB (PSNR) and 0.0321 (SSIM) in text super-resolution. Code is available at https://github.com/TongkunGuan/CCD.
arxiv情報
著者 | Tongkun Guan,Wei Shen,Xue Yang,Qi Feng,Zekun Jiang,Xiaokang Yang |
発行日 | 2023-08-18 14:34:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google