Character Queries: A Transformer-based Approach to On-Line Handwritten Character Segmentation

要約

オンライン手書き文字のセグメンテーションは手書き認識と関連付けられることが多く、認識モデルには認識プロセス中に関連する位置を特定するメカニズムが含まれていますが、通常、正確なセグメンテーションを生成するには不十分です。
セグメンテーションを認識から切り離すことで、認識の結果をさらに活用できる可能性が広がります。
特に、転写が事前にわかっているシナリオに焦点を当てます。この場合、文字のセグメンテーションは、スタイラスの軌跡のサンプリング ポイントとテキスト内の文字の間の割り当て問題になります。
$k$-means クラスタリング アルゴリズムにヒントを得て、クラスター割り当ての観点からそれを考察し、各クラスターが Transformer デコーダー ブロックで学習された文字クエリに基づいて形成される Transformer ベースのアーキテクチャを示します。
私たちのアプローチの品質を評価するために、2 つの人気のあるオンライン手書きデータセット、IAM-OnDB と HANDS-VNOnDB の文字セグメンテーションのグラウンド トゥルースを作成し、それらに対して複数のメソッドを評価し、私たちのアプローチが全体的に最良の結果を達成することを実証しました。

要約(オリジナル)

On-line handwritten character segmentation is often associated with handwriting recognition and even though recognition models include mechanisms to locate relevant positions during the recognition process, it is typically insufficient to produce a precise segmentation. Decoupling the segmentation from the recognition unlocks the potential to further utilize the result of the recognition. We specifically focus on the scenario where the transcription is known beforehand, in which case the character segmentation becomes an assignment problem between sampling points of the stylus trajectory and characters in the text. Inspired by the $k$-means clustering algorithm, we view it from the perspective of cluster assignment and present a Transformer-based architecture where each cluster is formed based on a learned character query in the Transformer decoder block. In order to assess the quality of our approach, we create character segmentation ground truths for two popular on-line handwriting datasets, IAM-OnDB and HANDS-VNOnDB, and evaluate multiple methods on them, demonstrating that our approach achieves the overall best results.

arxiv情報

著者 Michael Jungo,Beat Wolf,Andrii Maksai,Claudiu Musat,Andreas Fischer
発行日 2023-09-06 15:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク