Representing Online Handwriting for Recognition in Large Vision-Language Models

要約

タッチスクリーンとスタイラスを備えたタブレットの採用が増えており、重要な機能は手書きをテキストに変換し、検索、インデックス作成、AI 支援を可能にすることです。
一方、ビジョン言語モデル (VLM) は、さまざまなタスクにわたる最先端のパフォーマンスと、トレーニングや微調整に対する統合アプローチのシンプルさの両方のおかげで、現在、画像理解のための頼りになるソリューションとなっています。
、そして推論。
VLM は画像ベースのタスクでは高いパフォーマンスを発揮しますが、手書きを単純に適用した場合、つまり手書きを画像としてレンダリングして光学式文字認識 (OCR) を実行した場合、手書き認識のパフォーマンスは低くなります。
このペーパーでは、単純な OCR を超えて、VLM を使用したオンライン手書き認識を研究します。
私たちは、時系列のストロークのシーケンスをテキストと画像の両方として含む、デジタル インク (オンライン手書き) の新しいトークン化表現を提案します。
この表現により、最先端のオンライン手書き認識装置と同等かそれ以上の結果が得られることを示します。
複数の公開データセット上で 2 つの異なる VLM ファミリを使用した結果を通じて、幅広い適用性が示されています。
私たちのアプローチは、既製の VLM に適用でき、アーキテクチャを変更する必要がなく、微調整とパラメータ効率の高い調整の両方に使用できます。
私たちは、提案された表現の重要な要素を特定するために、詳細なアブレーション研究を実行します。

要約(オリジナル)

The adoption of tablets with touchscreens and styluses is increasing, and a key feature is converting handwriting to text, enabling search, indexing, and AI assistance. Meanwhile, vision-language models (VLMs) are now the go-to solution for image understanding, thanks to both their state-of-the-art performance across a variety of tasks and the simplicity of a unified approach to training, fine-tuning, and inference. While VLMs obtain high performance on image-based tasks, they perform poorly on handwriting recognition when applied naively, i.e., by rendering handwriting as an image and performing optical character recognition (OCR). In this paper, we study online handwriting recognition with VLMs, going beyond naive OCR. We propose a novel tokenized representation of digital ink (online handwriting) that includes both a time-ordered sequence of strokes as text, and as image. We show that this representation yields results comparable to or better than state-of-the-art online handwriting recognizers. Wide applicability is shown through results with two different VLM families, on multiple public datasets. Our approach can be applied to off-the-shelf VLMs, does not require any changes in their architecture, and can be used in both fine-tuning and parameter-efficient tuning. We perform a detailed ablation study to identify the key elements of the proposed representation.

arxiv情報

著者 Anastasiia Fadeeva,Philippe Schlattner,Andrii Maksai,Mark Collier,Efi Kokiopoulou,Jesse Berent,Claudiu Musat
発行日 2024-02-23 13:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク