InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write

要約

デジタル メモの作成は人気が高まっており、デジタル インクと呼ばれるベクトル化された形式でメモを保存する、耐久性があり、編集可能で、簡単にインデックス付けできる方法を提供します。
しかし、このメモの取り方と、依然として大多数が好んで使用している従来の紙とペンでのメモの取り方との間には、大きな隔たりが残っています。
私たちの仕事である InkSight は、物理的なメモを取る人が自分の作品 (オフラインの手書き) をデジタル インク (オンラインの手書き) に簡単に変換できるようにすることでギャップを埋めることを目的としています。このプロセスをデレンダリングと呼んでいます。
このトピックに関するこれまでの研究は、画像の幾何学的特性に焦点を当てていたため、トレーニング領域を超えた一般化は限られていました。
私たちのアプローチは、読み取り事前情報と書き込み事前情報を組み合わせたもので、入手が困難な大量のペアのサンプルが存在しない場合でもモデルをトレーニングすることができます。
私たちの知る限り、これは、さまざまな視覚的特徴と背景を持つ任意の写真内の手書きのテキストを効果的にレンダリングする最初の作品です。
さらに、トレーニング領域を超えて単純なスケッチに一般化されます。
人間による評価では、困難な HierText データセット上のモデルによって生成されたサンプルの 87% が入力画像の有効なトレースとみなされ、67% が人間がトレースしたペンの軌跡のように見えることが明らかになりました。

要約(オリジナル)

Digital note-taking is gaining popularity, offering a durable, editable, and easily indexable way of storing notes in the vectorized form, known as digital ink. However, a substantial gap remains between this way of note-taking and traditional pen-and-paper note-taking, a practice still favored by a vast majority. Our work, InkSight, aims to bridge the gap by empowering physical note-takers to effortlessly convert their work (offline handwriting) to digital ink (online handwriting), a process we refer to as Derendering. Prior research on the topic has focused on the geometric properties of images, resulting in limited generalization beyond their training domains. Our approach combines reading and writing priors, allowing training a model in the absence of large amounts of paired samples, which are difficult to obtain. To our knowledge, this is the first work that effectively derenders handwritten text in arbitrary photos with diverse visual characteristics and backgrounds. Furthermore, it generalizes beyond its training domain into simple sketches. Our human evaluation reveals that 87% of the samples produced by our model on the challenging HierText dataset are considered as a valid tracing of the input image and 67% look like a pen trajectory traced by a human.

arxiv情報

著者 Blagoj Mitrevski,Arina Rak,Julian Schnitzler,Chengkun Li,Andrii Maksai,Jesse Berent,Claudiu Musat
発行日 2024-02-08 16:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク