要約
コンテキスト認識手法は、単語から意味論的な事前情報を組み込むことにより、教師ありシーンテキスト認識で大きな成功を収めました。
我々は、そのような事前のコンテキスト情報は、異質なテキストと背景によるテキストプリミティブの関係として解釈でき、表現学習に効果的な自己教師ありラベルを提供できると主張します。
ただし、テキストの関係は、語彙の依存関係によりデータセットの有限サイズに制限されるため、オーバーフィッティングの問題が発生し、表現の堅牢性が損なわれます。
この目的を達成するために、再配置、階層、相互作用を通じてテキストの関係を強化し、RCLSTR (シーン テキスト認識のための関係対照学習) と呼ばれる統一フレームワークを設計することを提案します。
因果関係に基づいて、3 つのモジュールが文脈事前分布によって引き起こされるバイアスを抑制し、表現の堅牢性を保証することを理論的に説明します。
表現品質に関する実験では、私たちの方法が最先端の自己教師あり STR 方法よりも優れていることが示されています。
コードは https://github.com/ThunderVVV/RCLSTR で入手できます。
要約(オリジナル)
Context-aware methods achieved great success in supervised scene text recognition via incorporating semantic priors from words. We argue that such prior contextual information can be interpreted as the relations of textual primitives due to the heterogeneous text and background, which can provide effective self-supervised labels for representation learning. However, textual relations are restricted to the finite size of dataset due to lexical dependencies, which causes the problem of over-fitting and compromises representation robustness. To this end, we propose to enrich the textual relations via rearrangement, hierarchy and interaction, and design a unified framework called RCLSTR: Relational Contrastive Learning for Scene Text Recognition. Based on causality, we theoretically explain that three modules suppress the bias caused by the contextual prior and thus guarantee representation robustness. Experiments on representation quality show that our method outperforms state-of-the-art self-supervised STR methods. Code is available at https://github.com/ThunderVVV/RCLSTR.
arxiv情報
著者 | Jinglei Zhang,Tiancheng Lin,Yi Xu,Kai Chen,Rui Zhang |
発行日 | 2023-08-01 12:46:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google