要約
セグメンテーションフリーのキーワード検出における最近の進歩では、この問題を根本的に解決しています。
オブジェクト検出パラダイムを採用し、最先端の検出システムから借用して、同時に単語境界ボックス提案メカニズムを提案し、対応する表現を計算します。
複雑で大規模な DNN モデルに依存するこのような方法の標準とは対照的に、文書画像を効率的にスキャンしてクエリ情報を含む長方形の領域を見つける、新しいセグメンテーションフリーのシステムを提案します。
基礎となるモデルはシンプルかつコンパクトで、単語レベルの注釈付き画像でトレーニングされた暗黙的に学習されたスケール マップを通じて、長方形領域にわたる文字の出現を予測します。
次に、提案されている文書スキャンは、この文字カウントを使用して、積分画像と二分探索を介した費用対効果の高い方法で実行されます。
最後に、文字カウントによる検索類似性は、トレーニングされた CNN モデルを最大限に活用して、ピラミッド表現と CTC ベースの再スコアリング アルゴリズムによって洗練されます。
広く使用されている 2 つのデータセットに対する実験検証により、基礎となるモデルが単純であるにもかかわらず、私たちの方法がより複雑な代替方法を上回る最先端の結果が得られることが示されました。
要約(オリジナル)
Recent advances in segmentation-free keyword spotting treat this problem w.r.t. an object detection paradigm and borrow from state-of-the-art detection systems to simultaneously propose a word bounding box proposal mechanism and compute a corresponding representation. Contrary to the norm of such methods that rely on complex and large DNN models, we propose a novel segmentation-free system that efficiently scans a document image to find rectangular areas that include the query information. The underlying model is simple and compact, predicting character occurrences over rectangular areas through an implicitly learned scale map, trained on word-level annotated images. The proposed document scanning is then performed using this character counting in a cost-effective manner via integral images and binary search. Finally, the retrieval similarity by character counting is refined by a pyramidal representation and a CTC-based re-scoring algorithm, fully utilizing the trained CNN model. Experimental validation on two widely-used datasets shows that our method achieves state-of-the-art results outperforming the more complex alternatives, despite the simplicity of the underlying model.
arxiv情報
著者 | George Retsinas,Giorgos Sfikas,Christophoros Nikou |
発行日 | 2023-08-07 12:11:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google