Online Gesture Recognition using Transformer and Natural Language Processing

要約

タイトル:Transformerと自然言語処理を用いたオンラインジェスチャー認識

要約:
– Transformerアーキテクチャは、自然言語の文章のグリフストロークに対応したオンライン手書きジェスチャーの強力なマシン転置フレームワークを提供することが示された。
– アテンションメカニズムは、エンドツーエンドのエンコーダ・デコーダモデルの潜在表現を作成するために成功裏に使用され、多レベルのセグメンテーションを解決し、いくつかの言語特徴と文法規則を学習する。
– 学習されたByte-Pair-Encoding(BPE)を用いた大きなデコーディングスペースの追加使用は、切り取り入力と文法規則に対する堅牢性を提供することが示されている。
– エンコーダスタックは、空間・時間データトークンを直接フィードして、無限に大きな入力語彙を形成する可能性があるアプローチである。
– エンコーダ転移学習の能力も、いくつかの言語でデモンストレーションされ、より速い最適化と共有パラメータを実現する。
– オンライン手書きジェスチャーの新しい教師付きデータセットが汎用手書き認識タスクに適した場合、小さなTransformerモデルを正規化Levenshtein精度の平均96%(英語またはドイツ語の文章)またはフランス語では94%まで成功裏にトレーニングすることができた。

要約(オリジナル)

The Transformer architecture is shown to provide a powerful machine transduction framework for online handwritten gestures corresponding to glyph strokes of natural language sentences. The attention mechanism is successfully used to create latent representations of an end-to-end encoder-decoder model, solving multi-level segmentation while also learning some language features and syntax rules. The additional use of a large decoding space with some learned Byte-Pair-Encoding (BPE) is shown to provide robustness to ablated inputs and syntax rules. The encoder stack was directly fed with spatio-temporal data tokens potentially forming an infinitely large input vocabulary, an approach that finds applications beyond that of this work. Encoder transfer learning capabilities is also demonstrated on several languages resulting in faster optimisation and shared parameters. A new supervised dataset of online handwriting gestures suitable for generic handwriting recognition tasks was used to successfully train a small transformer model to an average normalised Levenshtein accuracy of 96% on English or German sentences and 94% in French.

arxiv情報

著者 G. C. M. Silvestre,F. Balado,O. Akinremi,M. Ramo
発行日 2023-05-05 10:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク