要約
最近の研究では、共通語彙(IV)シーンテキスト認識に対する深層学習モデルの大きな成功が示されています。しかし、実世界のシナリオでは、out-of-vocabulary (OOV) の単語が非常に重要であり、SOTA認識モデルは通常OOV設定に対して低いパフォーマンスを示します。我々は、学習された言語の事前性能には限界があるという直観に基づき、OOV問題に部分的に取り組むVision Language Adaptive Mutual Decoder (VLAMD) と呼ばれるフレームワークを設計する。VLAMDは3つの主要な構成要素からなる。まず、2つの視覚専用モジュールを適応的に結合した注意ベースのLSTMデコーダを構築し、視覚言語バランスの取れたメインブランチを得る。次に、視覚と言語の事前表現学習のために、クエリに基づく自己回帰変換復号化器を追加する。最後に、この2つの設計を双方向学習と組み合わせて、より多様な言語モデリングを行い、相互に逐次復号を行うことでロバスター結果を得る。我々のアプローチは、ECCV 2022 TiE WorkshopのOOV-STチャレンジのCropped Word Recognition Taskにおいて、IV+OOVとOOV設定でそれぞれ70.31%と59.61%の単語精度を達成し、両方の設定において1位を獲得しました。
要約(オリジナル)
Recent works have shown huge success of deep learning models for common in vocabulary (IV) scene text recognition. However, in real-world scenarios, out-of-vocabulary (OOV) words are of great importance and SOTA recognition models usually perform poorly on OOV settings. Inspired by the intuition that the learned language prior have limited OOV preformence, we design a framework named Vision Language Adaptive Mutual Decoder (VLAMD) to tackle OOV problems partly. VLAMD consists of three main conponents. Firstly, we build an attention based LSTM decoder with two adaptively merged visual-only modules, yields a vision-language balanced main branch. Secondly, we add an auxiliary query based autoregressive transformer decoding head for common visual and language prior representation learning. Finally, we couple these two designs with bidirectional training for more diverse language modeling, and do mutual sequential decoding to get robuster results. Our approach achieved 70.31\% and 59.61\% word accuracy on IV+OOV and OOV settings respectively on Cropped Word Recognition Task of OOV-ST Challenge at ECCV 2022 TiE Workshop, where we got 1st place on both settings.
arxiv情報
著者 | Jinshui Hu,Chenyu Liu,Qiandong Yan,Xuyang Zhu,Fengli yu,Jiajia Wu,Bing Yin |
発行日 | 2022-09-02 07:32:22+00:00 |
arxivサイト | arxiv_id(pdf) |