要約
スケーリングアーキテクチャは、シーンテキスト認識(STR)の改善に効果的であることが証明されていますが、ビジョンエンコーダーとテキストデコーダースケーリングの個々の貢献は、採点不足のままです。
この作業では、詳細な経験的分析を提示し、以前の観察とは反対に、デコーダーをスケーリングすると、エンコーダースケーリングのみで達成されたものを超える重大なパフォーマンスゲインが得られることを実証します。
また、特にSTRモデルの有効性を制限する可能性のある実際のデータ、特に実際のデータにおけるSTRの重要な課題としてラベルノイズを特定します。
これに対処するために、Cloze Self-DiStillation(CSD)を提案します。これは、教師モデルによって生成されたコンテキストを意識したソフト予測と擬似標識から生徒モデルを蒸留することによりラベルノイズを軽減する方法です。
さらに、STRの微分の交差時点を導入することにより、デコーダーアーキテクチャを強化します。
私たちの方法論は、実際のデータのみを使用して11のベンチマークのうち10で最先端のパフォーマンスを実現し、パラメーターのサイズと計算コストを大幅に削減します。
要約(オリジナル)
Scaling architectures have been proven effective for improving Scene Text Recognition (STR), but the individual contribution of vision encoder and text decoder scaling remain under-explored. In this work, we present an in-depth empirical analysis and demonstrate that, contrary to previous observations, scaling the decoder yields significant performance gains, always exceeding those achieved by encoder scaling alone. We also identify label noise as a key challenge in STR, particularly in real-world data, which can limit the effectiveness of STR models. To address this, we propose Cloze Self-Distillation (CSD), a method that mitigates label noise by distilling a student model from context-aware soft predictions and pseudolabels generated by a teacher model. Additionally, we enhance the decoder architecture by introducing differential cross-attention for STR. Our methodology achieves state-of-the-art performance on 10 out of 11 benchmarks using only real data, while significantly reducing the parameter size and computational costs.
arxiv情報
著者 | Andrea Maracani,Savas Ozkan,Sijun Cho,Hyowon Kim,Eunchung Noh,Jeongwon Min,Cho Jung Min,Dookun Park,Mete Ozay |
発行日 | 2025-03-20 14:35:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google