Partial Scene Text Retrieval

要約

部分シーン テキスト取得のタスクには、画像ギャラリーからの特定のクエリ テキストと同じまたは類似したテキスト インスタンスのローカライズと検索が含まれます。
ただし、既存の方法ではテキスト行インスタンスのみを処理できるため、トレーニング データにパッチ アノテーションが不足しているため、これらのテキスト行インスタンス内の部分パッチを検索するという問題が解決されません。
この問題に対処するために、テキスト行インスタンスとその部分パッチの両方を同時に取得できるネットワークを提案します。
私たちの方法では、2 種類のデータ (クエリ テキストとシーン テキストのインスタンス) を共有特徴空間に埋め込み、それらのクロスモーダル類似性を測定します。
部分的なパッチを処理するために、私たちが提案するアプローチは、追加の注釈を必要とせずに、クエリテキストとの類似性を学習する複数インスタンス学習 (MIL) アプローチを採用しています。
ただし、従来の MIL アプローチの標準ステップであるバッグの構築では、トレーニング用にノイズの多いサンプルが多数導入され、推論速度が低下する可能性があります。
この問題に対処するために、ノイズの多いサンプルを適応的にフィルタリングするためのランキング MIL (RankMIL) アプローチを提案します。
さらに、バッグを必要とせずに、推論段階でテキスト行インスタンスからターゲットの部分パッチを直接検索できる動的部分一致アルゴリズム (DPMA) を紹介します。
これにより、検索効率と部分パッチ取得のパフォーマンスが大幅に向上します。
ソース コードとデータセットは https://github.com/lanfeng4659/PSTR で入手できます。

要約(オリジナル)

The task of partial scene text retrieval involves localizing and searching for text instances that are the same or similar to a given query text from an image gallery. However, existing methods can only handle text-line instances, leaving the problem of searching for partial patches within these text-line instances unsolved due to a lack of patch annotations in the training data. To address this issue, we propose a network that can simultaneously retrieve both text-line instances and their partial patches. Our method embeds the two types of data (query text and scene text instances) into a shared feature space and measures their cross-modal similarities. To handle partial patches, our proposed approach adopts a Multiple Instance Learning (MIL) approach to learn their similarities with query text, without requiring extra annotations. However, constructing bags, which is a standard step of conventional MIL approaches, can introduce numerous noisy samples for training, and lower inference speed. To address this issue, we propose a Ranking MIL (RankMIL) approach to adaptively filter those noisy samples. Additionally, we present a Dynamic Partial Match Algorithm (DPMA) that can directly search for the target partial patch from a text-line instance during the inference stage, without requiring bags. This greatly improves the search efficiency and the performance of retrieving partial patches. The source code and dataset are available at https://github.com/lanfeng4659/PSTR.

arxiv情報

著者 Hao Wang,Minghui Liao,Zhouyi Xie,Wenyu Liu,Xiang Bai
発行日 2024-11-15 15:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク