The Devil is in Fine-tuning and Long-tailed Problems:A New Benchmark for Scene Text Detection

要約

シーンのテキスト検出では、アカデミックベンチマークで優れた高性能な方法の出現が見られました。
ただし、これらの検出器は、実際のシナリオでこのような成功を再現できないことがよくあります。
広範な実験を通じてこの矛盾に貢献している2つの重要な要因を明らかにします。
まず、モデルが他のドメインの有効性を低下させた犠牲を払って\ textit {dataset特異的最適化}(dso)パラダイムをレバレッジする\ textit {微調整ギャップ}は、アカデミックベンチマークの膨らんだパフォーマンスにつながります。
第二に、実用的な設定での最適ではないパフォーマンスは、主にテキストの長期尾の分布に起因します。そこでは、検出器が芸術的または重複したテキストとしてのまれで複雑なカテゴリと格闘しています。
DSOパラダイムがモデルの一般化能力を損なう可能性があることを考えると、微調整ギャップを緩和するために\ textit {共同ダタセット学習}(JDL)プロトコルを提唱します。
さらに、エラー分析が行われ、長期尾のあるシーンテキストで3つの主要なカテゴリと13のサブカテゴリの課題を特定し、長期尾のあるベンチマーク(LTB)を提案します。
LTBは、多様な範囲の長期継続的な課題を処理する能力の包括的な評価を促進します。
さらに、LTBの強力なベースラインとして、自己科学の学習ベースの方法であるMaedetを紹介します。
このコードはhttps://github.com/pd162/ltbで入手できます。

要約(オリジナル)

Scene text detection has seen the emergence of high-performing methods that excel on academic benchmarks. However, these detectors often fail to replicate such success in real-world scenarios. We uncover two key factors contributing to this discrepancy through extensive experiments. First, a \textit{Fine-tuning Gap}, where models leverage \textit{Dataset-Specific Optimization} (DSO) paradigm for one domain at the cost of reduced effectiveness in others, leads to inflated performances on academic benchmarks. Second, the suboptimal performance in practical settings is primarily attributed to the long-tailed distribution of texts, where detectors struggle with rare and complex categories as artistic or overlapped text. Given that the DSO paradigm might undermine the generalization ability of models, we advocate for a \textit{Joint-Dataset Learning} (JDL) protocol to alleviate the Fine-tuning Gap. Additionally, an error analysis is conducted to identify three major categories and 13 subcategories of challenges in long-tailed scene text, upon which we propose a Long-Tailed Benchmark (LTB). LTB facilitates a comprehensive evaluation of ability to handle a diverse range of long-tailed challenges. We further introduce MAEDet, a self-supervised learning-based method, as a strong baseline for LTB. The code is available at https://github.com/pd162/LTB.

arxiv情報

著者 Tianjiao Cao,Jiahao Lyu,Weichao Zeng,Weimin Mu,Yu Zhou
発行日 2025-05-21 15:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク