ICDAR 2023 Video Text Reading Competition for Dense and Small Text

要約

タイトル:ICDAR 2023 Dense and Small Textのためのビデオテキスト読み取り競技会

要約:

– 最近、自然なシーンにおけるビデオテキストの検出、トラッキング、認識がコンピュータビジョンのコミュニティで非常に人気になっています。
– ただし、ほとんどの既存アルゴリズムとベンチマークは、一般的なテキストケース(例:通常のサイズ、密度)や単一のシナリオに焦点を当てており、さまざまなシナリオでの密なテキストや小さなテキストといった極端なビデオテキストの課題を無視しています。
– この競技会報告書では、さまざまなシナリオで密なテキストと小さなテキストの読み取りに特化したビデオテキスト読み取りベンチマーク、DSTextを設立します。
– 提案されたデータセットは、主に3つの新しい課題が含まれています:1)ビデオテキストスポッターの新しい課題である密なビデオテキスト、2)高比率の小さなテキスト、3)ゲーム、スポーツなどのさまざまな新しいシナリオ。
– 提案されたDSTextには、12のオープンシナリオの100のビデオクリップが含まれ、2つのタスク(ビデオテキストトラッキング(タスク1)およびエンドツーエンドビデオテキストスポット(タスク2))をサポートしています。
– 競技期間中(2023年2月15日から2023年3月20日まで)、24チームがそれぞれ約30の有効な提出物で3つの提案されたタスクに参加しました。
– この記事では、データセット、タスク、評価プロトコル、ICDAR 2023 on DSTextコンペティションの結果の要約の詳細な統計情報について説明します。
– さらに、私たちはこのベンチマークがコミュニティのビデオテキスト研究を約束することを願っています。

要約(オリジナル)

Recently, video text detection, tracking, and recognition in natural scenes are becoming very popular in the computer vision community. However, most existing algorithms and benchmarks focus on common text cases (e.g., normal size, density) and single scenarios, while ignoring extreme video text challenges, i.e., dense and small text in various scenarios. In this competition report, we establish a video text reading benchmark, DSText, which focuses on dense and small text reading challenges in the video with various scenarios. Compared with the previous datasets, the proposed dataset mainly include three new challenges: 1) Dense video texts, a new challenge for video text spotter. 2) High-proportioned small texts. 3) Various new scenarios, e.g., Game, sports, etc. The proposed DSText includes 100 video clips from 12 open scenarios, supporting two tasks (i.e., video text tracking (Task 1) and end-to-end video text spotting (Task 2)). During the competition period (opened on 15th February 2023 and closed on 20th March 2023), a total of 24 teams participated in the three proposed tasks with around 30 valid submissions, respectively. In this article, we describe detailed statistical information of the dataset, tasks, evaluation protocols and the results summaries of the ICDAR 2023 on DSText competition. Moreover, we hope the benchmark will promise video text research in the community.

arxiv情報

著者 Weijia Wu,Yuzhong Zhao,Zhuang Li,Jiahong Li,Mike Zheng Shou,Umapada Pal,Dimosthenis Karatzas,Xiang Bai
発行日 2023-04-10 04:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク