SoftCTC — Semi-Supervised Learning for Text Recognition using Soft Pseudo-Labels

要約

このホワイト ペーパーでは、光学式文字認識や自動音声認識などのシーケンス タスクの半教師付きトレーニングについて説明します。
複数の転写バリアントを同時に考慮することを可能にする CTC の拡張である、新しい損失関数 $\unicode{x2013}$ SoftCTC $\unicode{x2013}$ を提案します。
これにより、半教師あり学習への疑似ラベル付けアプローチの重要なコンポーネントである信頼度ベースのフィルタリング ステップを省略できます。
困難な手書き認識タスクに対するこの方法の有効性を実証し、SoftCTC が微調整されたフィルタリング ベースのパイプラインのパフォーマンスと一致すると結論付けました。
また、SoftCTC を計算効率の観点から評価し、複数のトランスクリプション バリアントをトレーニングするための単純な CTC ベースのアプローチよりも大幅に効率的であると結論付け、GPU 実装を公開しました。

要約(オリジナル)

This paper explores semi-supervised training for sequence tasks, such as Optical Character Recognition or Automatic Speech Recognition. We propose a novel loss function $\unicode{x2013}$ SoftCTC $\unicode{x2013}$ which is an extension of CTC allowing to consider multiple transcription variants at the same time. This allows to omit the confidence based filtering step which is otherwise a crucial component of pseudo-labeling approaches to semi-supervised learning. We demonstrate the effectiveness of our method on a challenging handwriting recognition task and conclude that SoftCTC matches the performance of a finely-tuned filtering based pipeline. We also evaluated SoftCTC in terms of computational efficiency, concluding that it is significantly more efficient than a na\’ive CTC-based approach for training on multiple transcription variants, and we make our GPU implementation public.

arxiv情報

著者 Martin Kišš,Michal Hradiš,Karel Beneš,Petr Buchal,Michal Kula
発行日 2023-02-23 17:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T10, cs.CV, cs.LG パーマリンク