VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization

要約

画像またはビデオシーケンスからテキスト情報を抽出するタスクであるテキストスポッティングは、画像から画像への一般化、画像からビデオへの一般化などのクロスドメイン適応の課題に直面しています。
この論文では、VimTS と呼ばれる新しい方法を紹介します。この方法は、さまざまなタスク間のより良い相乗効果を達成することでモデルの汎化能力を強化します。
通常、プロンプト クエリ生成モジュールとタスク認識アダプターを提案し、最小限の追加パラメータで元のシングルタスク モデルを画像とビデオの両方のシナリオに適したマルチタスク モデルに効果的に変換します。
プロンプト クエリ生成モジュールは、異なるタスク間の明示的な対話を容易にし、タスク認識アダプターは、モデルが各タスクに適した機能を動的に学習するのに役立ちます。
さらに、モデルがより低コストで時間情報を学習できるようにするために、Content Deformation Fields (CoDeF) アルゴリズムを活用して合成ビデオ テキスト データセット (VTD-368k) を提案します。
特に、私たちの手法は、TT から IC15、CTW1500 から TT、TT から CTW1500 など、6 つのクロスドメイン ベンチマークにおいて、最先端の手法を平均 2.6% 上回っています。
ビデオレベルのクロスドメイン適応に関して、私たちの方法は、画像レベルのデータのみを使用して、ICDAR2015 ビデオおよび DSText v2 における以前のエンドツーエンドのビデオ スポッティング方法を MOTA メトリクスで平均 5.5% も上回っています。
さらに、必要なパラメーターとデータが大幅に少ない VimTS モデルとは対照的に、既存の大規模マルチモーダル モデルではクロスドメイン シーン テキスト スポッティングの生成に限界があることを示します。
コードとデータセットは https://VimTextSpotter.github.io で入手可能になります。

要約(オリジナル)

Text spotting, a task involving the extraction of textual information from image or video sequences, faces challenges in cross-domain adaption, such as image-to-image and image-to-video generalization. In this paper, we introduce a new method, termed VimTS, which enhances the generalization ability of the model by achieving better synergy among different tasks. Typically, we propose a Prompt Queries Generation Module and a Tasks-aware Adapter to effectively convert the original single-task model into a multi-task model suitable for both image and video scenarios with minimal additional parameters. The Prompt Queries Generation Module facilitates explicit interaction between different tasks, while the Tasks-aware Adapter helps the model dynamically learn suitable features for each task. Additionally, to further enable the model to learn temporal information at a lower cost, we propose a synthetic video text dataset (VTD-368k) by leveraging the Content Deformation Fields (CoDeF) algorithm. Notably, our method outperforms the state-of-the-art method by an average of 2.6% in six cross-domain benchmarks such as TT-to-IC15, CTW1500-to-TT, and TT-to-CTW1500. For video-level cross-domain adaption, our method even surpasses the previous end-to-end video spotting method in ICDAR2015 video and DSText v2 by an average of 5.5% on the MOTA metric, using only image-level data. We further demonstrate that existing Large Multimodal Models exhibit limitations in generating cross-domain scene text spotting, in contrast to our VimTS model which requires significantly fewer parameters and data. The code and datasets will be made available at the https://VimTextSpotter.github.io.

arxiv情報

著者 Yuliang Liu,Mingxin Huang,Hao Yan,Linger Deng,Weijia Wu,Hao Lu,Chunhua Shen,Lianwen Jin,Xiang Bai
発行日 2024-04-30 15:49:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク