DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary Learning

要約

手書き文書認識 (HDR) は最近大幅に進歩しましたが、複雑な背景、多様な手書きスタイル、さまざまな文書レイアウトに対するテキストを効率的かつ正確に認識することは、依然として現実的な課題です。
さらに、この問題は学術研究、特に利用可能な注釈付きデータが最小限のシナリオではめったに扱われません。
このペーパーでは、これらの課題に対処するための DocTTT フレームワークを紹介します。
私たちのアプローチの主な革新は、テスト時のトレーニングを使用して、テスト中にモデルを特定の入力ごとに適応させることです。
我々は、メタ学習と自己監視型マスクドオートエンコーダ(MAE)を組み合わせた新しいメタ補助学習アプローチを提案します。
テスト中に、自己教師あり MAE 損失を使用して視覚表現パラメーターを適応させます。
トレーニング中に、メタ学習フレームワークを使用してモデル パラメーターを学習し、新しい入力に効果的に適応するようにモデル パラメーターを学習します。
実験結果は、私たちが提案した方法が、ベンチマーク データセットに対する既存の最先端のアプローチよりも大幅に優れていることを示しています。

要約(オリジナル)

Despite recent significant advancements in Handwritten Document Recognition (HDR), the efficient and accurate recognition of text against complex backgrounds, diverse handwriting styles, and varying document layouts remains a practical challenge. Moreover, this issue is seldom addressed in academic research, particularly in scenarios with minimal annotated data available. In this paper, we introduce the DocTTT framework to address these challenges. The key innovation of our approach is that it uses test-time training to adapt the model to each specific input during testing. We propose a novel Meta-Auxiliary learning approach that combines Meta-learning and self-supervised Masked Autoencoder~(MAE). During testing, we adapt the visual representation parameters using a self-supervised MAE loss. During training, we learn the model parameters using a meta-learning framework, so that the model parameters are learned to adapt to a new input effectively. Experimental results show that our proposed method significantly outperforms existing state-of-the-art approaches on benchmark datasets.

arxiv情報

著者 Wenhao Gu,Li Gu,Ziqiang Wang,Ching Yee Suen,Yang Wang
発行日 2025-01-22 14:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク