要約
フォントなどのテキスト属性はドキュメント フォーマットやページ スタイルのコア デザイン要素であるため、自動属性認識は包括的な実用的なアプリケーションに適しています。
既存のアプローチは、異種の属性を区別する上ですでに満足のいくパフォーマンスを生み出していますが、わずかな違いしかない類似の属性を区別することにはまだ苦労しています。
さらに、予期しない明らかな画像の歪みが発生する現実のシナリオでは、パフォーマンスが大幅に低下します。
この論文では、最も一般的なドキュメントシーン向けに調整されたテキスト属性認識の対照的なフレームワークである TaCo を提案することにより、これらの問題に取り組むことを目指しています。
具体的には、TaCo は対照的な学習を活用して、あいまいで制限のない属性から生じる曖昧性の罠を解消します。
この目標を実現するために、次の 3 つの観点から学習パラダイムを設計します。1) 属性ビューの生成、2) 微妙だが重要な詳細の抽出、3) 価値あるビューのペアを学習に活用して、事前トレーニングの可能性を完全に解き放ちます。
広範な実験により、TaCo は監視対象の対応物よりも優れており、複数の属性認識タスクで最先端技術を著しく進歩させることが示されています。
TaCoのオンラインサービスが利用可能になります。
要約(オリジナル)
As textual attributes like font are core design elements of document format and page style, automatic attributes recognition favor comprehensive practical applications. Existing approaches already yield satisfactory performance in differentiating disparate attributes, but they still suffer in distinguishing similar attributes with only subtle difference. Moreover, their performance drop severely in real-world scenarios where unexpected and obvious imaging distortions appear. In this paper, we aim to tackle these problems by proposing TaCo, a contrastive framework for textual attribute recognition tailored toward the most common document scenes. Specifically, TaCo leverages contrastive learning to dispel the ambiguity trap arising from vague and open-ended attributes. To realize this goal, we design the learning paradigm from three perspectives: 1) generating attribute views, 2) extracting subtle but crucial details, and 3) exploiting valued view pairs for learning, to fully unlock the pre-training potential. Extensive experiments show that TaCo surpasses the supervised counterparts and advances the state-of-the-art remarkably on multiple attribute recognition tasks. Online services of TaCo will be made available.
arxiv情報
著者 | Chang Nie,Yiqing Hu,Yanqiu Qu,Hao Liu,Deqiang Jiang,Bo Ren |
発行日 | 2022-08-22 09:45:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google