Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition

要約

最近の自動テキスト認識 (ATR) の進歩により、ディープ ニューラル ネットワークが言語統計を暗黙的に取得できることが実証され、従来の言語モデルの必要性が軽減される可能性があります。
この研究は、明示的言語モデル、特に n グラム モデルが、手書き認識分野における最先端の深層学習アーキテクチャのパフォーマンスに依然として貢献しているかどうかに直接取り組んでいます。
私たちは、明示的な N グラム言語モデルの統合の有無にかかわらず、2 つの著名なニューラル ネットワーク アーキテクチャ、PyLaia と DAN を評価します。
IAM、RIMES、NorHand v2 の 3 つのデータセットに対する行レベルとページ レベルの両方での実験では、次数、重み、平滑化方法、トークン化レベルなど、n グラム モデルの最適なパラメーターを調査しました。
結果は、文字またはサブワード N グラム モデルを組み込むと、すべてのデータセットで ATR モデルのパフォーマンスが大幅に向上することを示しており、最適なパフォーマンスを得るには深層学習モデルだけで十分であるという概念に疑問を投げかけます。
特に、DAN と文字言語モデルの組み合わせは現在のベンチマークを上回り、最新の文書分析システムにおけるハイブリッド アプローチの価値を裏付けています。

要約(オリジナル)

In recent advances in automatic text recognition (ATR), deep neural networks have demonstrated the ability to implicitly capture language statistics, potentially reducing the need for traditional language models. This study directly addresses whether explicit language models, specifically n-gram models, still contribute to the performance of state-of-the-art deep learning architectures in the field of handwriting recognition. We evaluate two prominent neural network architectures, PyLaia and DAN, with and without the integration of explicit n-gram language models. Our experiments on three datasets – IAM, RIMES, and NorHand v2 – at both line and page level, investigate optimal parameters for n-gram models, including their order, weight, smoothing methods and tokenization level. The results show that incorporating character or subword n-gram models significantly improves the performance of ATR models on all datasets, challenging the notion that deep learning models alone are sufficient for optimal performance. In particular, the combination of DAN with a character language model outperforms current benchmarks, confirming the value of hybrid approaches in modern document analysis systems.

arxiv情報

著者 Solène Tarride,Christopher Kermorvant
発行日 2024-04-30 07:37:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク