Scalable Mask Annotation for Video Text Spotting

要約

【タイトル】
大規模なマスク・アノテーションを用いた動画テキスト・スポッティング

【要約】
・Quadrilateral ground truth(四角形で表示された正解データ)に頼る現行のデータセットは、余分な背景コンテンツを含み、正確なテキストの境界線を含まないことがある
・これに対処するため、SAMTextというスケーラブルなマスク・アノテーション・パイプラインを提案し、SAMText-9Mという大規模なデータセットを作成
・SAMTextは、SAEモデルを活用して、テキスト画像やビデオフレームのマスク・アノテーションを生成する
・SAMText-9Mは、既存のデータセットから収集された2,400以上のビデオクリップと、900万以上のマスク・アノテーションを含む
・生成されたマスクやその品質に関する統計的分析を実施し、さらに研究に活用できるトピックを識別
・コードとデータセットは、\url{https://github.com/ViTAE-Transformer/SAMText}に公開される。

要約(オリジナル)

Video text spotting refers to localizing, recognizing, and tracking textual elements such as captions, logos, license plates, signs, and other forms of text within consecutive video frames. However, current datasets available for this task rely on quadrilateral ground truth annotations, which may result in including excessive background content and inaccurate text boundaries. Furthermore, methods trained on these datasets often produce prediction results in the form of quadrilateral boxes, which limits their ability to handle complex scenarios such as dense or curved text. To address these issues, we propose a scalable mask annotation pipeline called SAMText for video text spotting. SAMText leverages the SAM model to generate mask annotations for scene text images or video frames at scale. Using SAMText, we have created a large-scale dataset, SAMText-9M, that contains over 2,400 video clips sourced from existing datasets and over 9 million mask annotations. We have also conducted a thorough statistical analysis of the generated masks and their quality, identifying several research topics that could be further explored based on this dataset. The code and dataset will be released at \url{https://github.com/ViTAE-Transformer/SAMText}.

arxiv情報

著者 Haibin He,Jing Zhang,Mengyang Xu,Juhua Liu,Bo Du,Dacheng Tao
発行日 2023-05-02 14:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク