Faster DAN: Multi-target Queries with Document Positional Encoding for End-to-end Handwritten Document Recognition

要約

手書きテキスト認識の最近の進歩により、文書全体をエンドツーエンドで認識することが可能になりました。Document Attention Network (DAN) は、文書の最後に到達するまで、注意ベースの予測プロセスを通じて文字を次々と認識します。
ただし、この自己回帰プロセスは、並列化の最適化の恩恵を受けられない推論につながります。
このホワイト ペーパーでは、予測時の認識プロセスを高速化するための 2 段階の戦略である Faster DAN を提案します。このモデルは、ドキュメント内の各テキスト行の最初の文字を予測し、すべてのテキスト行を複数の方法で並行して完成させます。
ターゲット クエリと特定のドキュメントの位置エンコード スキーム。
RIMES 2009、READ 2016、および MAURDOR データセットの単一ページおよび二重ページの画像全体で少なくとも 4 倍高速でありながら、標準の DAN と比較してより高速な DAN は競争力のある結果に到達します。
ソース コードとトレーニング済みモデルの重みは、https://github.com/FactoDeepLearning/FasterDAN で入手できます。

要約(オリジナル)

Recent advances in handwritten text recognition enabled to recognize whole documents in an end-to-end way: the Document Attention Network (DAN) recognizes the characters one after the other through an attention-based prediction process until reaching the end of the document. However, this autoregressive process leads to inference that cannot benefit from any parallelization optimization. In this paper, we propose Faster DAN, a two-step strategy to speed up the recognition process at prediction time: the model predicts the first character of each text line in the document, and then completes all the text lines in parallel through multi-target queries and a specific document positional encoding scheme. Faster DAN reaches competitive results compared to standard DAN, while being at least 4 times faster on whole single-page and double-page images of the RIMES 2009, READ 2016 and MAURDOR datasets. Source code and trained model weights are available at https://github.com/FactoDeepLearning/FasterDAN.

arxiv情報

著者 Denis Coquenet,Clément Chatelain,Thierry Paquet
発行日 2023-01-25 13:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク