要約
多くの場合、シーンを理解することは、実際のシナリオでテキストを読むために不可欠です。
ただし、現在のシーン テキスト認識機能は、全体像を認識せずに、トリミングされたテキスト イメージで動作します。
この作業では、CLIP などの最近の視覚言語モデルの代表力を利用して、切り抜きベースの認識エンジンにシーン、画像レベルの情報を提供します。
具体的には、画像全体の豊富な表現を取得し、相互注意を介して認識エンジンの単語レベルの特徴と融合させます。
さらに、コンテキストが強化された表現に徐々に移行するゲート メカニズムが導入され、事前トレーニング済みの認識エンジンを簡単に微調整できます。
CLIPTER – CLIP Text Recognition という名前のモデルに依存しないフレームワークをいくつかの主要なテキスト認識エンジンに実装し、一貫したパフォーマンスの向上を実証し、複数のベンチマークで最先端の結果を達成しています。
さらに、詳細な分析により、語彙外の単語に対する堅牢性の向上と、データ量の少ない体制での一般化の強化が明らかになりました。
要約(オリジナル)
Understanding the scene is often essential for reading text in real-world scenarios. However, current scene text recognizers operate on cropped text images, unaware of the bigger picture. In this work, we harness the representative power of recent vision-language models, such as CLIP, to provide the crop-based recognizer with scene, image-level information. Specifically, we obtain a rich representation of the entire image and fuse it with the recognizer word-level features via cross-attention. Moreover, a gated mechanism is introduced that gradually shifts to the context-enriched representation, enabling simply fine-tuning a pretrained recognizer. We implement our model-agnostic framework, named CLIPTER – CLIP Text Recognition, on several leading text recognizers and demonstrate consistent performance gains, achieving state-of-the-art results over multiple benchmarks. Furthermore, an in-depth analysis reveals improved robustness to out-of-vocabulary words and enhanced generalization in low-data regimes.
arxiv情報
著者 | Aviad Aberdam,David Bensaïd,Alona Golts,Roy Ganz,Oren Nuriel,Royee Tichauer,Shai Mazor,Ron Litman |
発行日 | 2023-01-18 12:16:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google