TextMatcher: Cross-Attentional Neural Network to Compare Image and Text

要約

テキストマッチングと呼ばれる新しいマルチモーダル学習問題を研究する。1行のテキストを含む画像と転写候補テキストが与えられたとき、画像に表されたテキストが候補テキストに対応するかどうかを評価することが目的である。我々はこの問題に特化した初の機械学習モデルを考案した。提案モデルはTextMatcherと呼ばれ、画像とテキストの埋め込み表現に対して交差注意メカニズムを適用することで2つの入力を比較し、エンドツーエンドで学習させるものである。我々は、TextMatcherの実証的な性能を、有名なIAMデータセットで広範囲に評価した。その結果、ベースラインや関連する問題に対して設計された既存のモデルと比較して、TextMatcherは様々な構成で高い性能を達成し、同時に推論時の動作も高速であることが証明されました。また、TextMatcherを銀行の小切手の自動処理に関する実世界のアプリケーションシナリオで紹介します。

要約(オリジナル)

We study a novel multimodal-learning problem, which we call text matching: given an image containing a single-line text and a candidate text transcription, the goal is to assess whether the text represented in the image corresponds to the candidate text. We devise the first machine-learning model specifically designed for this problem. The proposed model, termed TextMatcher, compares the two inputs by applying a cross-attention mechanism over the embedding representations of image and text, and it is trained in an end-to-end fashion. We extensively evaluate the empirical performance of TextMatcher on the popular IAM dataset. Results attest that, compared to a baseline and existing models designed for related problems, TextMatcher achieves higher performance on a variety of configurations, while at the same time running faster at inference time. We also showcase TextMatcher in a real-world application scenario concerning the automatic processing of bank cheques.

arxiv情報

著者 Valentina Arrigoni,Luisa Repele,Dario Marino Saccavino
発行日 2022-10-06 12:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク