DSS: Synthesizing long Digital Ink using Data augmentation, Style encoding and Split generation

要約

テキスト生成モデルではますます長い答えが得られるため、私たちはデジタル インクで長いテキストを合成するという問題に取り組みます。
このタスクに一般的に使用されるモデルが長い形式のデータに一般化できないことと、トレーニング データを強化し、モデル アーキテクチャと推論手順を変更することでこの問題をどのように解決できるかを示します。
これらの方法は対照的な学習技術を使用しており、特に手書きの領域に合わせて調整されています。
これらは、デジタル インクで動作するあらゆるエンコーダー/デコーダー モデルに適用できます。
私たちの方法により、長文英語データの文字エラー率がベースライン RNN と比較して半分に減少し、同じ問題に対処することを目的とした以前のアプローチと比較して 16% 減少することを示します。
方法の 3 つの部分すべてにより、生成されたインクの認識性が向上することを示します。
さらに、人間を対象とした研究で合成データを評価したところ、人々は生成されたデータのほとんどを本物として認識していることがわかりました。

要約(オリジナル)

As text generative models can give increasingly long answers, we tackle the problem of synthesizing long text in digital ink. We show that the commonly used models for this task fail to generalize to long-form data and how this problem can be solved by augmenting the training data, changing the model architecture and the inference procedure. These methods use contrastive learning technique and are tailored specifically for the handwriting domain. They can be applied to any encoder-decoder model that works with digital ink. We demonstrate that our method reduces the character error rate on long-form English data by half compared to baseline RNN and by 16% compared to the previous approach that aims at addressing the same problem. We show that all three parts of the method improve recognizability of generated inks. In addition, we evaluate synthesized data in a human study and find that people perceive most of generated data as real.

arxiv情報

著者 Aleksandr Timofeev,Anastasiia Fadeeva,Andrei Afonin,Claudiu Musat,Andrii Maksai
発行日 2023-11-29 16:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク