要約
手書き数式認識 (HMER) は、数式のレイアウトが複雑であるため、画像からテキストへのタスクでは困難であり、過剰解析や過小解析などの問題が発生します。
これらを解決するために、以前の HMER 手法では、履歴アライメント情報を利用してアテンション メカニズムを改善しました。
ただし、このアプローチでは、後続の復号化ステップで解析する必要がある画像領域に対する誤った注目を修正できないため、解析不足に対処する際に制限があります。
この誤ったアテンションにより、アテンション モジュールは将来のコンテキストを現在のデコード ステップに組み込むことになり、その結果アライメント プロセスが混乱します。
この問題に対処するために、無関係な領域の注意の重みを明示的に抑制し、適切な領域を強化することで、意図されたコンテキスト外の情報へのアクセスを禁止する注意ガイダンス メカニズムを提案します。
注意ガイダンスのタイプに応じて、注意の重みを調整するための 2 つの相補的なアプローチを考案します。それは、複数の頭部の注意を調整するセルフ ガイダンスと、隣接するタイム ステップからの注意を統合する近隣ガイダンスです。
実験の結果、私たちの方法は既存の最先端の方法よりも優れており、CROHME 2014/2016/2019 データセットで 60.75% / 61.81% / 63.30% の発現認識率を達成したことが示されています。
要約(オリジナル)
Handwritten mathematical expression recognition (HMER) is challenging in image-to-text tasks due to the complex layouts of mathematical expressions and suffers from problems including over-parsing and under-parsing. To solve these, previous HMER methods improve the attention mechanism by utilizing historical alignment information. However, this approach has limitations in addressing under-parsing since it cannot correct the erroneous attention on image areas that should be parsed at subsequent decoding steps. This faulty attention causes the attention module to incorporate future context into the current decoding step, thereby confusing the alignment process. To address this issue, we propose an attention guidance mechanism to explicitly suppress attention weights in irrelevant areas and enhance the appropriate ones, thereby inhibiting access to information outside the intended context. Depending on the type of attention guidance, we devise two complementary approaches to refine attention weights: self-guidance that coordinates attention of multiple heads and neighbor-guidance that integrates attention from adjacent time steps. Experiments show that our method outperforms existing state-of-the-art methods, achieving expression recognition rates of 60.75% / 61.81% / 63.30% on the CROHME 2014/ 2016/ 2019 datasets.
arxiv情報
著者 | Yutian Liu,Wenjun Ke,Jianguo Wei |
発行日 | 2024-03-05 15:02:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google