A Transformer Architecture for Online Gesture Recognition of Mathematical Expressions

要約

Transformerは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルとして、強力なフレームワークを提供することが示された。特に、注意のメカニズムを用いて、式の基本的な構文を符号化し、学習し、潜在的な表現を作成することに成功し、正確な数学的表現木に正しくデコードされ、消された入力や未見のグリフに対して頑健性を提供する。エンコーダは初めて時空間データのトークンを受け取り、無限に大きな語彙を形成する可能性があり、オンラインジェスチャー認識の枠を超えた応用が期待される。オンライン手書きジェスチャーの新しい教師付きデータセットは、一般的な手書き認識タスクのモデル学習のために提供され、出力表現木の構文の正しさを評価するための新しいメトリックが提案されています。エッジ推論に適した小さなTransformerモデルは、94%の平均正規化レーベンシュタイン精度で学習に成功し、予測の94%に有効な後置RPN木表現をもたらした。

要約(オリジナル)

The Transformer architecture is shown to provide a powerful framework as an end-to-end model for building expression trees from online handwritten gestures corresponding to glyph strokes. In particular, the attention mechanism was successfully used to encode, learn and enforce the underlying syntax of expressions creating latent representations that are correctly decoded to the exact mathematical expression tree, providing robustness to ablated inputs and unseen glyphs. For the first time, the encoder is fed with spatio-temporal data tokens potentially forming an infinitely large vocabulary, which finds applications beyond that of online gesture recognition. A new supervised dataset of online handwriting gestures is provided for training models on generic handwriting recognition tasks and a new metric is proposed for the evaluation of the syntactic correctness of the output expression trees. A small Transformer model suitable for edge inference was successfully trained to an average normalised Levenshtein accuracy of 94%, resulting in valid postfix RPN tree representation for 94% of predictions.

arxiv情報

著者 Mirco Ramo,Guénolé C. M. Silvestre
発行日 2022-11-04 17:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク