要約
手書き認識システムの主な課題は、長距離のコンテキスト依存関係を管理することにあり、これは従来のモデルがしばしば苦労する問題です。
それを軽減するために、最近ではアテンション メカニズムが採用され、コンテキストを認識したラベル付けが強化され、それによって最先端のパフォーマンスが実現されています。
しかし、パターン認識と画像分析の分野では、問題のラベル付けにおけるコンテキスト情報の使用には長い歴史があり、少なくとも 1970 年代初頭には遡ります。
当時開発されたさまざまなアプローチの中で、緩和ラベリング (RL) プロセスが重要な役割を果たしており、10 年以上にわたってこの分野で選ばれている方法です。
最近のトランスフォーマーベースのアーキテクチャとは対照的に、RL プロセスは、変分不等式とゲーム理論に基づいた強固な理論的基盤と、収束が保証された効果的なアルゴリズムを備えた、コンテキスト制約の使用に対する原則的なアプローチを提供します。
この論文では、2 つの異なる方法論の長所を統合した、手書き認識への新しいアプローチを提案します。
特に、我々は、RL プロセスを確立されたさまざまなニューラル アーキテクチャと統合する (トレーニング可能な) ことを提案し、アルゴリズムの収束を加速してシステム全体のパフォーマンスを向上させるスパース化手法を導入します。
いくつかのベンチマーク データセットに対する実験では、RL プロセスが一般化能力を向上させ、場合によってはトランスフォーマー ベースのアーキテクチャを上回ることができることを示しています。
要約(オリジナル)
The primary challenge for handwriting recognition systems lies in managing long-range contextual dependencies, an issue that traditional models often struggle with. To mitigate it, attention mechanisms have recently been employed to enhance context-aware labelling, thereby achieving state-of-the-art performance. In the field of pattern recognition and image analysis, however, the use of contextual information in labelling problems has a long history and goes back at least to the early 1970’s. Among the various approaches developed in those years, Relaxation Labelling (RL) processes have played a prominent role and have been the method of choice in the field for more than a decade. Contrary to recent transformer-based architectures, RL processes offer a principled approach to the use of contextual constraints, having a solid theoretic foundation grounded on variational inequality and game theory, as well as effective algorithms with convergence guarantees. In this paper, we propose a novel approach to handwriting recognition that integrates the strengths of two distinct methodologies. In particular, we propose integrating (trainable) RL processes with various well-established neural architectures and we introduce a sparsification technique that accelerates the convergence of the algorithm and enhances the overall system’s performance. Experiments over several benchmark datasets show that RL processes can improve the generalisation ability, even surpassing in some cases transformer-based architectures.
arxiv情報
著者 | Sara Ferro,Alessandro Torcinovich,Arianna Traviglia,Marcello Pelillo |
発行日 | 2024-09-09 15:12:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google