要約
畳み込みニューラル ネットワークの理論は、シフト等分散の特性を示唆しています。
ただし、実際には、常にそうであるとは限りません。
これは、シーン内のテキストの位置に関係なく、一貫した空間応答が重要なシーン テキスト検出に大きな問題をもたらします。
簡単な合成実験を使用して、最先端の完全な畳み込みテキスト検出器の固有のシフト分散を示します。
さらに、同じ実験設定を使用して、小さなアーキテクチャの変更がシフトの等分散性を改善し、検出器出力の変動を少なくする方法を示します。
テキスト検出ネットワークで実際のトレーニング スケジュールを使用して合成結果を検証します。
シフト変動の量を定量化するために、十分に確立されたテキスト検出ベンチマークに基づくメトリックを提案します。
提案されたアーキテクチャの変更では、シフトの等価性を完全に回復することはできませんが、平滑化フィルターを追加すると、一般的なテキスト データセットのシフトの一貫性を大幅に向上させることができます。
小さなシフトの潜在的に大きな影響を考慮して、テキスト検出器の一貫性を定量化できるようにするために、一般的に使用されるテキスト検出メトリックをこの作業で説明されているメトリックで拡張することを提案します。
要約(オリジナル)
Theory of convolutional neural networks suggests the property of shift equivariance, i.e., that a shifted input causes an equally shifted output. In practice, however, this is not always the case. This poses a great problem for scene text detection for which a consistent spatial response is crucial, irrespective of the position of the text in the scene. Using a simple synthetic experiment, we demonstrate the inherent shift variance of a state-of-the-art fully convolutional text detector. Furthermore, using the same experimental setting, we show how small architectural changes can lead to an improved shift equivariance and less variation of the detector output. We validate the synthetic results using a real-world training schedule on the text detection network. To quantify the amount of shift variability, we propose a metric based on well-established text detection benchmarks. While the proposed architectural changes are not able to fully recover shift equivariance, adding smoothing filters can substantially improve shift consistency on common text datasets. Considering the potentially large impact of small shifts, we propose to extend the commonly used text detection metrics by the metric described in this work, in order to be able to quantify the consistency of text detectors.
arxiv情報
著者 | Markus Glitzner,Jan-Hendrik Neudeck,Philipp Härtinger |
発行日 | 2022-08-19 09:11:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google