ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents

要約

歴史的な文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションの初期探索のための重要なツールである。現在、最も効率的なKWSの手法は、大量の注釈付き学習データを必要とする機械学習技術に頼っている。しかし、歴史的な原稿の場合、トレーニング用の注釈付きコーパスが不足しています。このようなデータ不足の問題を解決するために、人間の注釈に頼らずに入力データの有用な表現を抽出し、その表現を下流のタスクで使用する自己教師学習のメリットを検討する。我々は、ST-KeySを提案する。ST-KeySは、視覚変換器に基づくマスクドオートエンコーダモデルであり、事前学習段階は、ラベル付きデータを必要とせず、マスクと予測パラダイムに基づくものである。事前訓練段階では、事前訓練されたエンコーダは、入力画像からの特徴埋め込みを改善するために微調整されたシャムニューラルネットワークモデルに統合される。さらに、PHOC(Pyramidal histogram of characters)エンベッディングを用いて画像表現を改善し、テキスト属性に基づく画像の中間表現を作成・活用します。広く使われている3つのベンチマークデータセット(Botany、Alvermann Konzilsprotokolle、George Washington)を用いた徹底的な実験評価において、提案アプローチは同じデータセットで学習した最先端の手法を凌駕する。

要約(オリジナル)

Keyword spotting (KWS) in historical documents is an important tool for the initial exploration of digitized collections. Nowadays, the most efficient KWS methods are relying on machine learning techniques that require a large amount of annotated training data. However, in the case of historical manuscripts, there is a lack of annotated corpus for training. To handle the data scarcity issue, we investigate the merits of the self-supervised learning to extract useful representations of the input data without relying on human annotations and then using these representations in the downstream task. We propose ST-KeyS, a masked auto-encoder model based on vision transformers where the pretraining stage is based on the mask-and-predict paradigm, without the need of labeled data. In the fine-tuning stage, the pre-trained encoder is integrated into a siamese neural network model that is fine-tuned to improve feature embedding from the input images. We further improve the image representation using pyramidal histogram of characters (PHOC) embedding to create and exploit an intermediate representation of images based on text attributes. In an exhaustive experimental evaluation on three widely used benchmark datasets (Botany, Alvermann Konzilsprotokolle and George Washington), the proposed approach outperforms state-of-the-art methods trained on the same datasets.

arxiv情報

著者 Sana Khamekhem Jemni,Sourour Ammar,Mohamed Ali Souibgui,Yousri Kessentini,Abbas Cheddad
発行日 2023-03-06 13:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク