要約
最近、視覚言語事前トレーニング(VLP)技術は、視覚表現とテキスト表現を共同で学習することにより、さまざまな視覚言語タスクに大きなメリットをもたらしました。これは、シーンテキストの豊富な視覚情報とテキスト情報により、光学式文字認識(OCR)タスクに直感的に役立ちます。
画像。
ただし、これらの方法は、インスタンスレベルのテキストエンコーディングと画像とテキストのペアの取得(つまり、画像とキャプチャされたテキスト)の両方が難しいため、OCRタスクにうまく対処できません。
この論文では、視覚情報とテキスト情報を共同で学習および調整することにより、効果的なシーンテキスト表現を取得できる、弱く監視された事前トレーニング方法であるoCLIPを紹介します。
私たちのネットワークは、視覚的特徴とテキスト的特徴をそれぞれ抽出する画像エンコーダーと文字認識テキストエンコーダー、および効果的なシーンテキスト表現を学習するためのテキスト的特徴と視覚的特徴間の相互作用をモデル化する視覚的テキストデコーダーで構成されています。
テキストの特徴を学習することで、事前にトレーニングされたモデルは、キャラクターを意識して画像内のテキストにうまく参加できます。
さらに、これらの設計により、注釈の弱いテキスト(つまり、テキスト境界ボックスのない画像内の部分的なテキスト)からの学習が可能になり、データ注釈の制約が大幅に緩和されます。
ICDAR2019-LSVTの弱く注釈が付けられた画像に対する実験は、事前にトレーニングされたモデルがFスコアを+ 2.5 \%および+ 4.8 \%改善し、その重みを他のテキスト検出およびスポッティングネットワークにそれぞれ転送することを示しています。
さらに、提案された方法は、複数の公開データセットにわたって一貫して既存の事前トレーニング手法よりも優れています(たとえば、Total-TextおよびCTW1500の場合は+ 3.2 \%および+ 1.3 \%)。
要約(オリジナル)
Recently, Vision-Language Pre-training (VLP) techniques have greatly benefited various vision-language tasks by jointly learning visual and textual representations, which intuitively helps in Optical Character Recognition (OCR) tasks due to the rich visual and textual information in scene text images. However, these methods cannot well cope with OCR tasks because of the difficulty in both instance-level text encoding and image-text pair acquisition (i.e. images and captured texts in them). This paper presents a weakly supervised pre-training method, oCLIP, which can acquire effective scene text representations by jointly learning and aligning visual and textual information. Our network consists of an image encoder and a character-aware text encoder that extract visual and textual features, respectively, as well as a visual-textual decoder that models the interaction among textual and visual features for learning effective scene text representations. With the learning of textual features, the pre-trained model can attend texts in images well with character awareness. Besides, these designs enable the learning from weakly annotated texts (i.e. partial texts in images without text bounding boxes) which mitigates the data annotation constraint greatly. Experiments over the weakly annotated images in ICDAR2019-LSVT show that our pre-trained model improves F-score by +2.5\% and +4.8\% while transferring its weights to other text detection and spotting networks, respectively. In addition, the proposed method outperforms existing pre-training techniques consistently across multiple public datasets (e.g., +3.2\% and +1.3\% for Total-Text and CTW1500).
arxiv情報
著者 | Chuhui Xue,Yu Hao,Shijian Lu,Philip Torr,Song Bai |
発行日 | 2022-07-26 14:31:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google