Towards Unified Scene Text Spotting based on Sequence Generation

要約

タイトル: シークエンス生成に基づく統一的なシーンテキストスポッティングへの取り組み
要約:
– 最近、シークエンス生成モデルはさまざまなビジョンタスクを統一することで重要な進歩を遂げています。
– いくつかの自己回帰モデルは、エンドツーエンドのテキストスポットにおいて有望な結果を示していますが、特定の検出形式を使用するため、さまざまなテキスト形状を無視しており、検出できるテキストインスタンスの最大数に制限があります。
– これらの制限を克服するために、私たちは統一的なシーンテキストスポッター、UNITSを提案しています。私たちのモデルは、四角形や多角形を含むさまざまな検出形式を統一し、任意の形状のテキストを検出できるようにしています。
– さらに、開始点プロンプトを適用することで、モデルが任意の開始地点からテキストを抽出できるようにすることで、学習されたテキストインスタンス数を超えるテキストを抽出できるようにしました。
– 実験結果は、私たちの方法が最新の手法と競合する性能を発揮することを示しています。さらに、UNITSは、学習されたテキスト数を超えるテキストを抽出できることが分析で示されました。
– UNITSのコードは https://github.com/clovaai/units で提供されています。

要約(オリジナル)

Sequence generation models have recently made significant progress in unifying various vision tasks. Although some auto-regressive models have demonstrated promising results in end-to-end text spotting, they use specific detection formats while ignoring various text shapes and are limited in the maximum number of text instances that can be detected. To overcome these limitations, we propose a UNIfied scene Text Spotter, called UNITS. Our model unifies various detection formats, including quadrilaterals and polygons, allowing it to detect text in arbitrary shapes. Additionally, we apply starting-point prompting to enable the model to extract texts from an arbitrary starting point, thereby extracting more texts beyond the number of instances it was trained on. Experimental results demonstrate that our method achieves competitive performance compared to state-of-the-art methods. Further analysis shows that UNITS can extract a larger number of texts than it was trained on. We provide the code for our method at https://github.com/clovaai/units.

arxiv情報

著者 Taeho Kil,Seonghyeon Kim,Sukmin Seo,Yoonsik Kim,Daehee Kim
発行日 2023-04-07 01:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク