1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: Cropped Word Recognition

要約

本レポートでは、ECCV 2022の課題である語彙外シーンテキスト理解(OOV-ST)に対する我々の勝者による解答を紹介する。この課題は、ECCV 2022 Workshop on Text in Everything (ECCV2022)の一環として開催されました。この課題は、ECCV 2022 Workshop on Text in Everything (TiE)の中で開催され、自然なシーン画像から語彙のない単語を抽出することを目的としています。このコンペティションでは、まず合成データセット上でSCATTERを事前学習させ、その後、データ増強により学習セット上でモデルの微調整を行います。一方、長文と縦書きのテキストに特化した2つのモデルを追加で学習させます。最後に、異なる層、異なるバックボーン、異なるシードを持つ異なるモデルからの出力を最終結果として組み合わせます。我々のソリューションは、語彙内単語と語彙外単語の両方を考慮した場合、69.73%の全体的な単語精度を達成する。

要約(オリジナル)

This report presents our winner solution to ECCV 2022 challenge on Out-of-Vocabulary Scene Text Understanding (OOV-ST) : Cropped Word Recognition. This challenge is held in the context of ECCV 2022 workshop on Text in Everything (TiE), which aims to extract out-of-vocabulary words from natural scene images. In the competition, we first pre-train SCATTER on the synthetic datasets, then fine-tune the model on the training set with data augmentations. Meanwhile, two additional models are trained specifically for long and vertical texts. Finally, we combine the output from different models with different layers, different backbones, and different seeds as the final results. Our solution achieves an overall word accuracy of 69.73% when considering both in-vocabulary and out-of-vocabulary words.

arxiv情報

著者 Zhangzi Zhu,Yu Hao,Wenqing Zhang,Chuhui Xue,Song Bai
発行日 2022-08-04 16:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク