Contrastive Graph Multimodal Model for Text Classification in Videos

要約

映像中のテキスト情報の抽出は、映像の意味理解のための重要なステップである。これは通常2つのステップに分けられる。(1) テキスト認識と(2) テキスト分類。動画中のテキストを特定するために、OCR技術に基づく多くのテキスト認識手法に頼ることができる。しかし、我々の知る限り、ビデオテキスト分類の第2ステップに焦点を当てた既存の研究はなく、ビデオのインデックス作成やブラウジングといった下流のタスクへの指針が制限されることになる。本論文では、マルチモーダル情報を融合することで、様々な色、未知のフォント、複雑なレイアウトなど、異なるタイプのビデオテキストが混同される可能性があるという困難なシナリオに対処し、ビデオテキスト分類という新しいタスクに初めて取り組みます。さらに、レイアウト情報を明示的に抽出することで特徴表現を強化するため、CorrelationNetと呼ばれる特定のモジュールを調整する。さらに、豊富な未ラベル動画を用いて、サンプル間のつながりを探索するコントラスト学習を利用する。最後に、ビデオテキスト認識・分類アプリケーションの構築と評価に特化した、TI-Newsと呼ばれるニュース領域から定義された新しい産業用データセットを構築する。TI-Newsを用いた広範な実験により、我々の手法の有効性が実証された。

要約(オリジナル)

The extraction of text information in videos serves as a critical step towards semantic understanding of videos. It usually involved in two steps: (1) text recognition and (2) text classification. To localize texts in videos, we can resort to large numbers of text recognition methods based on OCR technology. However, to our knowledge, there is no existing work focused on the second step of video text classification, which will limit the guidance to downstream tasks such as video indexing and browsing. In this paper, we are the first to address this new task of video text classification by fusing multimodal information to deal with the challenging scenario where different types of video texts may be confused with various colors, unknown fonts and complex layouts. In addition, we tailor a specific module called CorrelationNet to reinforce feature representation by explicitly extracting layout information. Furthermore, contrastive learning is utilized to explore inherent connections between samples using plentiful unlabeled videos. Finally, we construct a new well-defined industrial dataset from the news domain, called TI-News, which is dedicated to building and evaluating video text recognition and classification applications. Extensive experiments on TI-News demonstrate the effectiveness of our method.

arxiv情報

著者 Ye Liu,Changchong Lu,Chen Lin,Di Yin,Bo Ren
発行日 2022-06-06 04:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク