VATr++: Choose Your Words Wisely for Handwritten Text Generation

要約

スタイル付き手書きテキスト生成 (HTG) は、GAN、トランスフォーマー、および暫定的に拡散モデルを使用した学習ベースのソリューションの成功によって、近年大きな注目を集めています。
このような関心の高まりにもかかわらず、HTG モデルのトレーニングに対する視覚的およびテキストの入力の影響と、その後のパフォーマンスへの影響という、重要かつ十分に研究されていない側面がまだ残っています。
この研究では、最先端の Styled-HTG アプローチをさらに深く掘り下げ、モデルのパフォーマンス向上と汎化の向上を可能にする入力準備とトレーニング正則化のための戦略を提案しています。
これらの側面は、いくつかの異なる設定とデータセットに関する広範な分析を通じて検証されます。
さらに、この研究では、パフォーマンスの最適化を超えて、HTG 研究における重大な障害、つまり標準化された評価プロトコルの欠如に対処します。
特に、HTG の評価プロトコルの標準化を提案し、既存のアプローチの包括的なベンチマークを実施します。
そうすることで、HTG 戦略間の公平かつ有意義な比較の基盤を確立し、この分野の進歩を促進することを目指しています。

要約(オリジナル)

Styled Handwritten Text Generation (HTG) has received significant attention in recent years, propelled by the success of learning-based solutions employing GANs, Transformers, and, preliminarily, Diffusion Models. Despite this surge in interest, there remains a critical yet understudied aspect – the impact of the input, both visual and textual, on the HTG model training and its subsequent influence on performance. This study delves deeper into a cutting-edge Styled-HTG approach, proposing strategies for input preparation and training regularization that allow the model to achieve better performance and generalize better. These aspects are validated through extensive analysis on several different settings and datasets. Moreover, in this work, we go beyond performance optimization and address a significant hurdle in HTG research – the lack of a standardized evaluation protocol. In particular, we propose a standardization of the evaluation protocol for HTG and conduct a comprehensive benchmarking of existing approaches. By doing so, we aim to establish a foundation for fair and meaningful comparisons between HTG strategies, fostering progress in the field.

arxiv情報

著者 Bram Vanherle,Vittorio Pippi,Silvia Cascianelli,Nick Michiels,Frank Van Reeth,Rita Cucchiara
発行日 2024-02-16 16:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク